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摘要 


大 语言 模型 (Large Language Models, LLMs) 能 够 从 大 量 语 料 的 上 下 文中 学 习 


到 模式 , 其 包 


括 词语 之 间 的 关系 、 句 子 的 结构 甚至 更 复杂 的 语义 和 语 用 信息 。 然 而 ， 


让 预 训练 语言 模型 生成 结构 化 、 严 格 遵循 约定 的 内 容 仍 然 是 一 项 挑战 。 
本 文 提出 了 一 种 引导 LLMs 生 成 计算 机 高 可 用 内 容 的 方案 , 无 需 微 调和 额外 的 


神经 网 络 推 弄 


E, 通过 提前 约定 的 上 下 文 无 关 文 法 (Context-Free Grammar, CFG) 引入 


基于 协 程 的 内 容 生 成 约束 机 制 ， 在 自 回 归 模 型 Transformer 的 解码 阶段 引导 模型 采 
样 正确 的 词 元 ,以 构成 符合 程序 约定 的 形式 语言 。 这 将 有 效 地 提升 LLMs 生成 目标 


数据 结构 、 类 型 或 指令 的 稳定 性 和 一 致 性 ， 降 低 应 用 开发 和 集成 的 难度 。 


本 文 作 者 先 通过 “匹配 括号 对 ”实验 验证 了 GPT-2 和 Gemma 等 模型 在 生成 DSL 
长 度 分 别 大 于 36 和 282 时 错误 率 就 达到 了 95%, 说 明了 当前 LLMs 在 特定 DSL Æ 
成 上 的 性 能 问题 。 本 文 作者 还 提出 了 基于 协 程 的 DSL 生成 框架 YieldLang， 并 使 
用 LLMs 在 多 个 任务 数据 集 上 进行 了 实验 ， 包 括 ISON. Mermaid 流 图 和 函数 调用 
表达 式 生成 等 任务 。 这些 实 验 表 明 本 文 的 方法 相 比 基准 , 其 准确 率 提升 到 了 原来 的 
109% 到 1160% ， 并 且 在 最 好 的 情况 下 能 够 将 LLMs ÆR JSON 的 采样 次 数 降低 到 


基准 的 约 16.5% ， 这 将 有 效 地 提高 LLMs 生成 内 容 对 计算 机 程序 的 可 用 性 。 


关键 词 : 


大 语言 模型 ， 结 构 化 内 容 生 成 ， 计 算 机 辅助 编程 ， 约 束 解码 ， 协 程 ， 


上 下 文 无 关 文 法 


* 初 公开 于 : https://chinaxiv.org/abs/202403.00340 
+ 作者 邮箱 : hk-shao@outlook.com 
:版 本 日 期 2024-04-07 


Abstract 


Large language models (LLMs) have demonstrated remarkable capabilities in learn- 
ing patterns from massive text corpora, including word relationships, sentence structures, 
and even complex semantic and pragmatic information. However, it remains challenging 
to induce pre-trained language models to generate structured content that strictly follows 
specific conventions. 

We propose a scheme for guiding LLMs to generate highly usable content for com- 
puters without the need for fine-tuning and additional neural network inference, by intro- 
ducing coroutine-based content generation constraints through a pre-agreed context-free 
grammar (CFG), which guides the autoregressive model Transformer to sample the cor- 
rect tokens during its decoding phase to form a program-compliant form in the decoding 
phase of the autoregressive model Transformer to form a formal language that conforms 
to the program conventions. This will effectively improve the stability and consistency of 
LLMs in generating target data structures, types or instructions, and reduce the difficulty 
of application development and integration. 

We first verified that the error rate of models such as GPT-2 and Gemma reaches 95% 
when the length of the generated DSLs are greater than 36 and 282, respectively, through 
the experiment of “matching bracket pairs”, which illustrates the performance problem 
of some current LLMs in the generation of specific DSLs. We also present YieldLang, 
a coroutine-based DSL generation framework, and conduct experiments using LLMs on 
multiple task datasets, including tasks such as JSON, Mermaid flowchart, and function 
call expression generation. These experiments show that the approach in this paper im- 
proves its accuracy by a factor of 1.09 to 11.6 compared to the benchmarks, and in the 
best case is able to reduce the number of samples used by the LLMs to generate JSON 
to about 16.5% of the benchmarks, which will effectively improve the usability of the 
content generated by the LLMs for computer programs. 

Key Words: Large language models, Structured content generation, Computer-aided 


programming, Constrained decoding, Coroutine, Context-free grammar 
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1 绪论 


11 ” 选 题 背景 及 意义 


LLMs 已 经 让 人 们 见证 了 计算 机 拥有 一 定 程度 上 的 理解 和 生成 自然 语言 的 能 
J, 并 且 对 不 同 领域 的 任务 均 有 一 定 泛 化 能 力 , 这 种 人 机 对 话 能 力 可 以 帮助 人 类 解 
决 各 种 问题 。 然 而 , 由 开发 人 员 所 编写 的 计算 机 程序 却 不 像 人 类 那样 拥有 极 强 的 鲁 
棒 性 。 在 合理 输入 提示 词 的 前 提 下 , 有 两 种 路 径 让 预 训练 LLMs 更 准确 地 指导 完成 
一 系列 自动 化 任务 ， 或 作为 计算 机 程序 中 间 件 纳入 更 多 种 类 的 生产 过 程 。 


> 难以 开发 、 容 易 出 
i > 错 和 难以 错误 处 理 


任何 信息 形式 | 应 用 程序 | 伪 自 然 语言 /模糊 语言 
用 户 


图 1-1 语言 模型 可 能 无 法 输出 预期 结构 的 信息 以 被 程序 解析 

这 两 种 常用 途径 分 别 是 开发 鲁 棒 性 更 好 的 应 用 程序 和 对 齐 语言 模型 。 但 是 这 
两 种 途径 可 能 都 存在 一 定 的 问题 ， 具 体 来 说 : 

(1) GPT 等 语言 模型 所 拥有 语言 理解 和 生成 能 力 使 得 人 们 能 够 开发 出 更 接近 通 
用 人 工 智能 的 应 用 程序 。 但 是 如 果 需 要 基于 大 语言 模型 开发 如 图 1-1 所 示 的 应 用 程 
Fes 则 开发 者 经 常会 遇 到 一 些 痛 点 。 大 语言 模型 的 输出 是 依赖 于 概率 的 , 用 户 或 计 
算 机 程序 无 法 100% 确保 大 语言 模型 生成 的 内 容 符合 预期 的 结构 。 开 发 者 开发 鲁 棒 
性 更 高 程序 去 应 对 模型 的 输出 更 为 困难 、 成 本 很 高 。 模 型 的 输出 不 符合 预期 往往 带 
来 更 多 信息 丢失 、 计 算 资源 浪费 、 甚 至 整个 任务 链 路 的 失败 。 

(2) 男 一 种 方案 是 对 齐 语言 模型 ， 使 得 此 模型 在 特定 任务 上 更 适 配 我 们 的 应 用 
程序 。 这 样 也 能 够 提升 生成 内 容 的 可 用 性 ,并 减少 计算 资源 的 浪费 。 然 而 , 对 齐 语 
言 模型 会 带 来 “对 齐 税 ”( 大 语言 模型 在 预 训练 期 间 获得 了 广泛 的 能 力 , 但 在 人 类 反 
馈 的 强化 学 习 下 对 齐 模型 会 导致 其 遗忘 中 )， 针 对 某 一 类 任务 新 对 齐 的 模型 还 需要 
新 的 部 署 ， 导 致 所 需 的 计算 资源 成 本 大 大 提升 。 


AX HFEF 处 理 后 的 
人 机 交互 | 交互 程序 | 自然 语言 


1.2 ”国内 外 研究 现状 


语言 模型 不 仅仅 能 够 直接 与 人 类 进行 对 话 ， 还 应 该 拥有 准确 使 用 给 定 工具 的 
能 力 , 这 在 形式 上 等 价 于 让 语言 模型 理解 指令 , 然后 使 用 给 定 的 应 用 程序 接口 。 而 
这 本 质 又 要 求 语言 模型 输出 可 以 被 计算 机 解析 为 符合 预期 数据 结构 的 领域 特定 语 
言 。 无 论 是 学 术 界 还 是 工业 界 ， 相 关 工 程 和 研究 近年 来 在 不 断 出 现 。 

1.2.1 学术 界 对 控制 语言 模型 的 研究 


OpenAI 在 2018 年 2 月 以 一 篇 名 为 《通过 生成 式 预 训练 提高 语言 理解 能 力 》 的 
论文 发 布 了 开源 的 预 训练 语言 模型 GPT12， 随 后 在 2019 年 、2020 年 分 别 发 布 了 
GPT-2 和 GPT3。 此 前 ， 这 三 个 版 本 仅仅 在 学 术 界 有 知名 度 ， 直 到 OpenAI 于 2022 
年 11 月 30 日 发 布 了 商业 产品 ChatGPT. 在 随后 的 短 短 $ 天 时 间 内 ， 其 注册 用 户 达 
到 了 1005, 两 个 月 后 其 月 活用 户 数量 就 达到 了 一 亿 , 成 为 商业 界 和 科技 圈 的 热门 
话题 。OpenAI 开 放 了 网 络 接口 ， 多 许 开 发 者 使 用 OpenAI 的 语言 模型 来 开发 “更 不 
可 思议 ”的 应 用 程序 。 更 多 研究 人 员 参 与 到 大 语言 模型 的 应 用 研究 当中 ， 他 们 发 现 
通过 一 种 提示 技术 ， 能 够 使 语言 模型 通过 “思维 链 ” 进 行 “推理 "， 并 能 够 通过 使 用 预 
定义 工具 集中 的 工具 〈 如 能 够 搜索 互联 网 ) 来 “行动 ”。 实 验证 明 , 这 种 组 合 极 大 地 
提高 了 输出 文本 质量 ， 并 赋予 大 语言 模型 正确 解决 问题 的 能 力 中 。 

OpenAI 注 意 到 了 大 量 开发 人 员 对 GPT 拥 有 更 多 更 灵活 控制 的 需求 , 于 2023 年 
11 月 6 日 的 OpenAIDevDay 正式 发 布 GPT-4 Turbo。OpenAI 的 首席 执行 官 Sam Alt- 
man 在 Opening Keynote 中 提 到 了 6 大 更 新 , 在 第 二 节 的 “More Control”* 部 分 重点 推 
出 JSON mode. 这 是 一 个 让 GPT 直接 生成 JSON (JavaScript Object Notation) 文本 的 
功能 。 不 像 模糊 的 自然 语言 ，JSON 属于 上 下 文 无 关 语 言 ， 被 工业 界 广泛 采用 ， 易 
于 被 程序 解析 为 计算 机 中 确定 的 数据 结构 ， 从 而 更 好 地 参与 程序 的 逻辑 链 路 。 

ElementAI 的 研究 人 员 发 现 ， 采 用 增 量 解析 来 约束 语言 模型 的 自 回 归 解 码 
(Parsing Incrementally for Constrained Auto-Regressive Decoding, PICARD) 能 够 有 效 
的 让 语言 模型 生成 形式 语言 , 尤其 是 生成 有 效 的 SQL 查询 语句 外 。 这 种 让 语言 模型 
在 自 回归 解码 过 程 中 拒绝 掉 不 合法 的 词 ， 仅 输出 能 够 构成 合法 DSL 前 级 的 约束 解 
码 ， 可 能 正 是 OpenAI 实 现 JSON mode 的 思路 名。 除了 JSON mode 之 外 ,方法 调用 
(Function calling) 也 能 从 GPT 中 获取 结构 化 输出 。 通 过 预先 告知 的 方法 名 、 方 法 描 
述 和 调用 所 需 的 参数 和 对 应 类 型 ，GPT RER JSON 格式 的 函数 调用 信息 , 其 形式 
上 仍然 是 一 种 “JSON mode”， 但 是 这 使 得 GPT 拥有 了 使 用 工具 的 能 
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Google Fl MIT 的 研究 人 员 于 2023 年 5 月 底 提 出 了 Grammar Prompting, 75 ik 
LLM 根据 上 下 文生 成 BNF 的 语法 规则 ， 然 后 再 用 约束 解码 让 LLMs 根据 语法 规则 
生成 文本 。 通过 语义 解析 DSL (SMCalFlow, GeoQuery, Overnight), 动作 DSL (PDDL 
planning)、 分 子 生成 (SMILES) 等 实验 ， 研 究 人 员 认 为 Grammar Prompting 可 以 改 
进 标准 提示 基线 ， 这 种 方法 还 有 望 更 好 地 帮助 LLMs 使 用 工具 中。 

1.2.2 ”工业 界 对 生成 结构 化 串 的 需求 


在 工业 界 ， 让 大 语言 模型 生成 结构 化 文本 的 一 个 典型 需求 是 生成 ISON 字 
FE, 一些 开发 人 员 意 识 到 LLMs 并 不 能 稳定 地 生成 有 效 的 JSON FB, 但 幸运 的 是 
LLMs 犯错 的 情况 总 是 比较 典型 , 因此 可 以 通过 一 个 解析 程序 在 大 部 分 情况 下 不 破 
坏 含义 地 修复 LLMs 产生 的 错误 中。 这 种 方法 属于 先 让 LLMs ERA, BE HS 
试 修复 它 ， 程 序 并 不 一 定 能 适 配 各 种 大 模型 并 在 所 有 情况 下 修复 字符 串 。 

来 自 微软 的 开发 人 员 于 2022 年 11 月 11 日 在 代码 托管 平台 GitHub 提交 了 guid- 

ance 的 第 一 行 代码 , 这 是 一 个 用 于 控制 大 语言 模型 的 Python PEEL, 通过 不 断 地 
更 新 迭代 , guidance 提供 了 使 用 正则 表达 式 、 上 下 文 无 关 文法 和 交织 控制 (Interleave 
Control) 等 的 方式 来 控制 来 自 Transformers, LlamaCpp, VertexAI 和 OpenAI 等 接口 
的 语言 模型 四 ， 使 开发 人 员 能 够 更 灵活 的 控制 语言 模型 。 
由 Huggingface 在 GitHub 开源 的 Transformers JÆ, 提供 了 大 量 的 预 训练 语言 模 
型 和 源 代码 实现 91, 来 自 EPFL 的 开发 人 员 Saibo Geng 于 2023 年 11 月 17 日 在 Trans- 
formers 仓库 提交 的 PR (Pull Request) #27557 提供 了 一 个 使 用 EBNF 接口 的 草案 “上 
下 文 无 关 文法 的 约束 解码 ”代码 实现 。Saibo Geng 认为 语法 约束 的 语言 模型 明显 优 
于 不 受 约束 的 语言 模型 , 甚至 击败 了 特定 任务 的 微调 模型 。 语 法 约束 对 于 利用 现成 
的 语言 模型 进行 广泛 的 结构 化 NLP 任务 具有 很 大 的 前 景 ， 尤 其 是 在 训练 数据 稀缺 
或 微调 成 本 高 昂 的 情况 下 no。 

工业 界 更 常用 的 VLLM 库 提 供 了 速度 快 且 灵活 的 开源 LLMs 推理 服务 实现 01。 
FRAT Andrew Lapp! F 2023 F 12 H 14 HÆ vlim 仓库 提交 了 PR 加 105 实 现 了 一 
个 增 量 的 LALR 算法 的 CFG 或 正则 解析 器 ， 用 以 在 语言 模型 生成 过 程 中 确定 “le- 
gal-next-token” 集合 。 此 PR 依赖 于 在 GitHub 开源 的 语法 解析 器 Lark", SKILT 
EBNF 接口 的 vllm.grammar.GrammarLogitsProcessor 后 处 理 器 , 用 以 约束 大 语言 模型 
生成 形式 上 严格 符合 约定 语法 的 内 容 。 


"https://github.com/lappO 


1.2.3 ” 现 有 研究 和 技术 方案 的 局 限 性 

现 有 研究 和 技术 方案 的 问题 主要 可 以 描述 为 三 点 ， 分 别 是 训练 和 推理 成 本 很 
、 方 法 泛 用 性 和 易 用 性 不 好 、 方 法 和 鲁 棒 性 和 时 间 复 杂 度 不 好 。 

其 一 : LLMs 的 训练 和 推理 成 本 很 高 , 针对 不 同 的 DSL 生成 需求 训练 或 调 优 模 
型 过 程 繁 琐 、 成 本 很 高 ， 且 仍 无 法 期 望 生成 内 容 达 到 100% 的 可 用 性 。 如 果 生 成 内 
容 的 语法 不 符合 预期 ， 不 能 通过 程序 的 语法 检查 ， 就 只 能 重新 生成 或 以 失败 终止。 
工业 界 针 对 ISON 的 修复 方法 不 能 处 理 所 有 情况 ， 且 不 适用 于 其 他 DSL, FRA 
员 编 写 在 这 类 “修复 ”程序 的 心智 负担 较 大 。 

其 二 : Antlr4、Lark 和 Tree-sitter03] 等 Parser Generator 的 设计 目标 是 生成 一 个 
高 性 能 解析 或 增 量 解析 ) 符合 文法 的 串 为 AST 的 程序 源 代码 。 他 们 的 设计 目标 不 
是 提升 鲁 棒 性 或 用 于 自动 化 生成 DSL。 当 输入 的 文本 不 符合 文法 时 , 这 些 程序 的 解 
析 过 程 通 常会 出 错 并 终止 , 可 以 获取 出 错 信息 , 但 通常 位 置 和 原因 不 够 精确 , 不 足 
以 引导 生成 DSL。 这 些 解析 器 也 无 法 从 解析 中 途 恢 复 并 指导 DSL 生成 。 

I=: Transformers 和 vLLM 仓库 的 CFG 相关 PR 提案 ， 以 及 上 述 的 期 刊 、 会 
议 的 相关 研究 ， 采用 的 方法 并 非 “异步 *+ “指令 方法。 即便 是 增 量 解析 ， 在 最 差 的 
情况 下 ,， 现 有 技术 在 自 回归 语言 模型 生成 每 一 个 token 的 时 候 都 需要 验证 一 遍 当前 
已 生成 的 前 绥 是 否 属于 DSL BK DSL 的 前 缀 ,一些 优化 方案 是 增加 方法 调用 缓存 以 
及 增 量 解 析 ， 但 时 间 复 杂 度 仍然 可 能 不 好 。 生 成 长 度 为 n 的 DSL， 若 验证 DSL 的 
时 间 复 杂 度 为 O(f(n)) ， 那 么 生成 DSL 的 复杂 度 将 会 是 2 ”| OCF (i) 。 根据 DSL 
或 解析 器 的 不 同 ，O(f(n)) 可 能 是 Oln), O(n?) 或 O(n?) 等 情况 。 


1.3 ”课题 研究 内 容 


a 


~ 


----» Nice! :) 


任何 信息 形式 emer | 数据 结构 或 指令 (DSL) 


| | 引导 装置 | | 
一 人 机 交互 | xan | pe 
a ba a 


大 语言 模型 
Pa 


图 1-2 引导 产生 数据 结构 或 指令 使 得 应 用 程序 更 好 工作 


首先 ， 开 发 人 员 需 要 以 更 低 的 心智 负担 ， 将 语言 模型 纳入 到 应 用 程序 实现 中 。 
在 图 1-2 这 个 模型 中 , 用 户 既 不 会 直接 与 LLMs 对 话 (可 以 减少 LLMs 被 攻击 者 “ 洗 
脑 * 的 不 安全 性 ), 也 不 会 直接 接受 LLMs 的 输出 , 而 是 经 由 应 用 程序 的 处 理 转 换 为 
其 他 人 机 交互 的 体现 〈 例 如 通过 图 表 、 动 画 和 声音 等 信息 形式 响应 用 户 )。 

其 次 , 为 应 对 现 有 研究 和 技术 方案 的 局 限 性 , 本 研究 设计 的 引导 装置 包含 了 两 
个 子 装置 : 装置 一 是 采用 异步 和 协 程 的 DSL 解析 和 产生 装置 , 即 “ 异 步 DSL 解析 语 
言 生成 装置 ”; 装置 二 是 在 装置 一 的 基础 上 ,调用 语言 模型 进行 DSL 采样 的 解码 装 
置 ， 即 “语言 模型 引导 装置 "。 通 过 上 述 两 个 装置 ， 实现 引导 LLMs 在 合适 的 位 置 产 
生 预 期 的 DSL， 开 发 人 员 得 以 更 轻松 地 利用 LLMs 的 能 力 开发 鲁 棒 性 更 高 的 应 用 
程序 。 整 个 系统 大 致 流程 如 图 1-3 所 示 。 


异步 DSL 解 析 


语言 生成 装置 


Instruction DSL 


send 语言 模型 
(Next Token) 引导 装置 
下 一 个 合法 的 
修改 后 处 理 词 元 集合 


Vocab Logits 合法 词 元 IDs 


非法 词 元 IDs 
update 后 处 理 器 
(Next Tokens) (Processor) 


New Vocab Logits 


Probs 


图 1-3 引导 大 语言 模型 生成 可 解析 内 容 的 系统 
(1) 开发 人 员 基 于 本 研究 实现 的 框架 和 其 提供 的 若干 组 合子 方法 、 装 饰 器 和 生 
成 器 ， 用 Python 协 程 、 类 、 方 法 和 递归 等 编程 概念 编写 BNF 的 上 下 文 无 关 文法 语 
言 的 生成 器 类 。 此 生成 器 能 够 产生 一 种 用 以 产生 给 定 CFG 对 应 语言 的 引导 指令 。 


(2) 装置 一 运行 开发 人 员 给 定 的 生成 器 类 ， 产 生 引 导 指 令 并 驱动 装置 二 ， 装 置 
驱动 自 回 归 语 言 模 型 从 语言 引导 指令 中 采样 下 一 个 合法 的 词 元 。 具体 来 说 , 对 于 
Transformer 架构 的 模型 ， 装 置 二 会 在 解码 之 前 的 “后 处 理 ” 阶 段 将 所 有 不 合法 词 元 
(语言 模型 词汇 表 对 应 的 词 元 ID 类 型 ) 禁用 , 然后 再 由 语言 模型 的 解码 装置 产生 下 
一 个 词 元 (字符 串 类 型 )， 同 时 选取 能 合法 构成 下 一 个 DSL 前 级 的 词 元 前 级 。 

(3) 产生 的 下 一 个 词 元 前 绥 会 被 纳入 自 回 归 语 言 模型 的 上 下 文 当 中 ， 同 时 此 词 
元 前 缀 也 会 输入 到 装置 一 , 使 得 其 产生 下 一 个 引导 指令 。 直到 装置 一 产生 结束 指令 
《例如 EOF. EOS 等 指令 )，DSL 生成 完毕 。 


14 ”论文 结构 安排 


本 文 将 主要 介绍 工业 界 常用 的 领域 特定 语言 的 结构 和 产生 方式 ， 如 何 设计 一 
个 采用 协 程 实现 的 异步 DSL 产生 和 解析 装置 ， 以 及 如 何在 此 装置 基础 上 为 自 回归 
语言 模型 (尤其 是 Transformer 架构 的 语言 模型 ) 构建 一 个 约束 解码 装置 ， 使 得 开 
发 人 员 可 以 在 此 装置 基础 上 更 轻松 地 利用 大 语言 模型 的 能 力 开 发 鲁 棒 性 更 高 的 应 
用 程序 。 有 具体 来 次， 各 个 章节 内 容 安排 如 下 : 

第 一 章 : 绪论 。 主 要 内 容 是 本 研究 的 背景 、 大 语言 模型 纳入 应 用 程序 存在 的 困 
难 、 学 术 界 对 控制 语言 模型 的 研究 、 工 业界 对 生成 结构 化 串 的 需求 、 现 有 研究 和 技 
术 方 案 的 局 限 性 、 课 题 研究 内 容 和 本 论文 的 结构 安排 。 

第 二 章 : 开发 人 员 需 要 语言 模型 生成 DSL 开发 应 用 。 主要 介绍 了 工业 界 、 学 术 
界 和 其 他 领域 常用 的 DSL 形式 。 计 算 机 依赖 DSL 来 实现 具体 功能 ， 而 开发 人 员 既 
需要 依赖 DSL 也 需要 利用 语言 模型 的 通用 能 力 来 开发 应 用 。 

第 三 章 : 大 语言 模型 在 DSL 生成 任务 上 的 性 能 缺陷 。 主 要 介绍 了 芽 
型 在 按照 指令 要 求生 成 DSL 时 性 能 较 差 , 不 能 总 是 能 够 生成 符合 预期 结构 的 文本 。 
本 章 还 从 现 有 语言 模型 的 解码 策略 上 分 析 了 产生 这 种 性 能 缺陷 的 原因 。 


第 四 章 : 产生 DSL 的 基本 规则 和 范式 , 实现 生成 器 。 主 要 介绍 了 形式 语言 的 产 
生 规 则 , 将 DSL 认为 是 一 种 形式 语言 , 尤其 是 最 常用 的 上 下 文 无 关 语言 。 本 章 介绍 


了 采用 递归 下 降 和 协 程 实现 的 DSL ARR EL, 此 装置 也 可 用 于 DSL 解析 和 验证 。 
过 随机 采样 或 其 他 采样 方法 ， 此 装置 能 够 产生 计算 机 可 以 解析 的 内 容 。 

第 五 章 : 生成 开发 者 预期 的 DSL 通过 语言 模型 采样 。 主 要 介绍 了 基于 约束 解码 
的 方法 将 现 有 Transformer 架构 的 语言 模型 用 作 采 样 器 , 在 生成 器 中 选择 DSL 产生 
路 径 。 此 方法 也 可 以 用 于 其 他 自 回归 语言 模型 。 


= 


6 


第 六 章 : 本 研究 在 语言 模型 生成 DSL 领域 取得 优势 。 主要 介绍 了 本 研究 的 实验 
结果 ， 在 多 个 任务 数据 集 上 进行 实验 ， 包 括 ISON. Mermaid 流 图 和 函数 调用 表达 
式 等 DSL 生成 任务 ， 以 及 测试 了 DSL 约束 装置 对 语言 模型 采样 次 数 的 影响 。 

第 七 章 : 总 结 与 展望 。 对 本 研究 所 做 的 工作 进行 总 结 , 展望 了 本 研究 所 提出 的 
方法 的 用 途 ， 并 说 明 本 研究 的 局 限 性 及 可 能 的 研究 方向 。 


15 本章 小 结 


本 章 主 要 介绍 了 开发 人 员 在 使 用 大 语言 模型 开发 具体 应 用 程序 时 可 能 面临 的 
困难 : 难以 开发 足够 高 鲁 棱 性 的 计算 机 程序 将 语言 模型 的 输出 内 容 解析 为 开发 
人 员 和 程序 所 期 望 的 数据 结构 。 学 术 界 和 工业 界 现 有 三 种 途径 来 解决 这 一 问题 , 包 
括 “ 事 后 修复 ”、“ 对 齐 模型 "和 “约束 解码 ”。 然而 , 现 有 方法 均 存 在 一 定 的 局 限 性 , 本 
研究 将 改进 现 有 的 “约束 解码 ”实现 ， 分 别 实 现 异步 DSL 解析 语言 生成 装置 和 语言 
模型 引导 装置 ， 开 发 人 员 能 在 此 基础 上 更 容易 的 利用 语言 模型 产生 DSL 以 开发 鲁 
棒 性 更 高 的 应 用 程序 。 


2 ”开发 人 员 需 要 语言 模型 生成 DSL 开发 应 用 


领域 特定 语言 已 经 在 编程 实践 中 得 到 了 非常 广泛 的 应 用 ， 开 发 人 员 依 赖 DSL 
进行 数据 交换 、 配 置 文件 编写 和 业务 轴 辑 实现 。 DSL 的 解析 和 产生 是 各 种 编程 语言 
的 标准 库 、 软 件 包 或 应 用 程序 开发 框架 广泛 提供 的 功能 。 随 着 大 语言 模型 的 发 展 ， 
人 们 发 现 大 语言 模型 在 语义 理解 和 生成 方面 拥有 广泛 的 用 途 ， 开 发 人 员 和 希望 借助 
LLMs 的 通用 能 力 开发 新 的 应 用 程序 , 而 DSL IE Æ LLMs 与 现 有 应 用 程序 交互 的 一 
种 重要 途径 。 因 此 ， 开 发 人 员 需 要 语言 模型 生成 DSL 开发 应 用 。 


21 ”领域 特定 语言 


领域 特定 语言 (Domain-Specific Language, DSL) 是 一 种 为 特定 领域 应 用 程序 设 
计 的 计算 机 语言 ,也 被 称 作 面向 应 用 语言 59、 特 殊 用 途 语 言 59 等 。 与 通用 编程 语言 
(General-Purpose Language, GPL) PE, DSL 专注 于 特定 领域 的 表达 能 力 ， 并 提供 
更 简洁 、 更 易于 理解 的 语法 和 语义 。 

为 方便 描述 , 本 文 所 指 的 DSL 强调 可 被 计算 机 程序 解析 为 特定 数据 结构 的 串 ， 
或 称 为 形式 语言 (Formal language) ， 不 区 分 DSL 和 GPL。 用 于 数据 交换 的 JSON, 
XML YAML 等 语言 ,用 于 查询 的 SQL、XPath、XQuery 等 语言 , 用 于 排版 的 HTML、 
BTEX, Markdown 等 语言 以 及 各 种 编程 语言 都 认为 是 一 种 DSL. 


22 ”工业 界 常用 的 DSL 


一 些 软件 开发 人 员 除 了 需要 使 用 通用 编程 语言 《例如 Cy Java, Go 和 Rust $) 
外 ,在 开发 过 程 中 还 需要 使 用 各 种 各 样 的 DSL。 这些 DSL 可 能 涉及 包括 标记 语言 、 
信息 交换 语言 、 数 据 格式 、 应 用 程序 接口 、 软 件 配置 、 图 文 排版 等 各 种 领域 . 表 2-1 
列 出 了 部 分 工业 界 常用 的 DSL 名 称 、MIME 类 型 和 其 简介 。 
表 2-1 部 分 工业 界 DSL 举例 


JSON 定义 了 一 套 轻 量规 则 ， 用 于 可 移植 地 表示 结构 化 数 


ti. JSON 的 文法 是 上 下 文 无 关 的 ， 是 Web 最 常用 的 数据 
交换 格式 之 一 ， 被 广泛 应 用 于 前 后 端 数据 交换 、 配 置 文件 


application/jsonl!6l 


编写 〈 例 如 NodeJS 的 package.json 文件 ) 等 场景 。 


可 扩展 标记 语言 (eXtensible Markup Language) 是 一 种 标记 
语言 ， 可 用 于 存储 、 传 输 和 重 构 松 散 数据 。XML 的 文法 
上 下 文 无 关 的 ， 被 广泛 应 用 于 前 后 端 数据 交换 、 配 置 文件 
编写 (例如 Maven 软件 包 的 pom.xml 文件 ) 等 场景 。 


超 文 本 标记 语言 (HyperText Markup Language) 是 一 种 用 于 
创建 网 页 的 标记 语言 。HTML 的 文法 是 上 下 文 无 关 的 ， 广 


泛 应 用 于 排版 和 前 端 应 用 开发 。 


187 7) BEL (Comma-Separated Values) 是 一 种 通用 的 、 简 单 
CSV text/csv09] 的 文件 格式 ， 以 纯 文 本 存储 数字 或 文本 的 表格 数据 。 其 作 


为 信息 交换 格式 被 用 户 、 商 业 和 科学 界 广泛 应 用 。 


基于 JavaScript 的 图 表 创 建 工具 , 它 的 语法 和 演 染 受 Mark- 
Mermaid! | text/vnd.mermaid | down 启 发 ,用 于 创建 和 修改 各 种 复杂 的 图 表 , 包括 流程 图 、 


时 序 图 、 甘 特 图 、 类 图 、Git 图 、 实 体 关 系 图 等 Po。 


表 2-1 中 的 MIME 指 的 是 互联 网 媒体 类 型 (Multipurpose Internet Mail Exten- 
sions, MIME) ， 是 一 种 互联 网 传输 内 容 类 型 的 标准 ， 也 是 一 种 被 BNF 定义 的 DSL， 
最 初 为 互联 网 请 求 意 见 稿 (Request for Comments, RFCs) 所 定义 P11。 


2.3 ”学 术 界 使 用 的 DSL 


学 术 界 最 常见 的 需求 是 是 需要 一 种 DSL 来 表示 数学 或 其 他 学 科 领 域 的 公式 ， 
这 种 DSL 应 该 是 准确 、 严 格 且 易 于 用 户 输 入 的 , 它 能 够 被 相应 的 计算 机 程序 解析 为 
特定 数据 结构 , 然后 再 由 计算 机 排版 和 泻 染 算法 将 其 转换 为 矢量 图 或 位 图 , 以 便 用 
于 屏幕 显示 或 印刷 。 能 够 处 理 复 杂 数 学 符号 排版 的 最 经 典 DSL 便 是 TEX 文本 ,其 
次 还 有 被 HTML5 标准 兼容 的 MathML (一 种 用 于 描述 数学 符号 和 捕获 它 的 结构 与 
内 容 的 标记 语言 22) 和 新 兴 的 用 于 排版 的 Typst 编程 语言 23。 

在 物理 领域 ，Q# 是 由 微软 开发 的 一 个 量子 算法 工具 包 ， 后 来 芝加哥 大 学 的 
Kartik Singhal 等 人 给 予 了 它 正 式 的 规范 ， 提 出 的 和 -Q# 拥有 更 严格 的 数学 定义 和 类 
型 系统 5q， 这 使 得 在 描述 量子 算法 上 也 拥有 了 和 良好 句法 定义 的 DSL。 

一 些 研 究 人 员 创造 了 专用 的 标记 方法 SMILES KIRI FN TAL, ROE 
示 方 法 使 用 ASCI 字 符 串 明确 分 子 结构 , 一 些 研 究 人 员 使 用 深度 神经 网 络 训练 生成 


"https://mermaid.js.org/intro/ 
*https://www.iana.org/assignments/media-types/application/vnd.mermaid 
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SMILES 字符 串 的 概率 模型 来 产生 化 学 结构 29。2007 年 开源 化 学 社区 开发 了 开放 规 
范 OpenSMILES!， 社 区 使 用 了 BNF 形式 的 文法 定义 了 这 种 语言 R71。 

在 生物 领域 , 科研 人 员 使 用 深度 学 习 、 自 然 语言 处 理 等 技术 来 研究 蛋白 质 , 他 
们 认为 常见 和 蛋白质 的 基 序 和 结构 域 类 似 于 人 类 语言 中 的 单词 、 短 语 和 句子 Pa, 因此 
DSL 也 可 用 作 研 究 蛋 白质 的 工具 。 


2.4 ”其 他 领域 需要 DSL 


除了 工业 界 和 学 术 界 会 使 用 DSL 外 ， 在 其 他 一 些 领 域 〈 例 如 商业 、 艺 术 等 领 
域 ) 也 会 用 到 DSL。 专用 于 商业 的 编程 语言 COBOL (Common Business Oriented Lan- 
guage) 是 最 早 的 高 级 编程 语言 , 也 是 世界 上 最 早 实施 标准 化 的 计算 机 语言 之 一 。 专 
用 于 实时 声音 合成 或 音乐 创作 的 计算 机 编程 语言 ChucKP91、 基 于 XML 的 声音 计算 
系统 Csound! 和 为 电子 艺术 以 及 视觉 交互 设计 而 创建 的 编程 语言 Processing!!! 等 
诸多 DSL 也 在 其 各 自 领域 得 到 了 广泛 应 用 。 


25 语言 模型 生成 DSL 


GPT 等 语言 模型 已 经 让 开发 人 员 见 证 了 其 在 各 个 领域 的 通用 能 力 ， 包 括 机 器 
翻译 、 文 本 摘要 、 信 息 提 取 、 问 答 助 手 、 代 码 生 成 等 等 能 力 。 更 具体 的 ,我 们 还 希 
望 语 言 模型 能 够 在 具体 的 环境 下 做 识别 、 分 类 、 路 由 、 推 理 、 决 策 等 任务 。 当 语言 
模型 参与 到 具体 的 计算 机 应 用 或 研究 当中 时 ， 需 要 生成 特定 的 DSL 以 便 计 算 机 程 
序 识 别 。 如 果 大 语言 模型 能 够 遵循 指令 要 求生 成 DSL, 那么 其 易 用 性 和 谤 用 性 将 会 
大 大 提高 。 这 将 是 让 人 工 智能 学 会 使 用 工具 并 走向 通用 人 工 智能 的 途径 之 一 。 


2.6 KA NÅ 


本 章 介绍 了 在 工业 界 、 学 术 界 、 商 业界 、 艺 术 界 等 与 计算 机 交汇 的 领域 ，DSL 
得 到 了 极为 广泛 的 应 用 ， 并 且 已 经 有 不 少 研究 人 员 采 用 语言 模型 来 进行 学 术 研 究 。 
GPT 等 语言 模型 拥有 强大 的 泛 用 性 , 而 开发 人 员 依 赖 DSL, 如 果 语 言 模型 能 够 拥有 
准确 遵循 指令 而 生成 开发 人 员 所 期 望 的 DSL 的 能 力 ， 那 么 语言 模型 将 更 加 实用 且 
拥有 极为 广泛 的 应 用 前 景 。 


'http://opensmiles.org/opensmiles.html 
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3 ”大 语言 模型 在 DSL 生成 任务 上 的 性 能 缺陷 


虽然 DSL 在 各 个 领域 应 用 广泛 , 但 是 基于 深度 学 习 的 模型 产生 合法 的 DSL 是 
一 个 有 挑战 性 的 任务 ,例如 DeepSMILES 的 作者 在 2018 年 的 论文 中 提 到 , 如 果 使 用 
一 个 基于 字符 级 别 的 循环 神经 网 络 (RNN) 模型 来 生成 SMILES 字符 串 ， 这 个 模型 

能 生成 大 量 不 合法 的 字符 串 ， 原 因 在 于 模型 总 是 不 能 产生 匹配 的 括号 对 Ps321。 这 
种 不 合法 的 字符 串 无 法 被 化 学 软件 解析 为 合法 的 化 学 结构 。 

众多 DSL 在 文法 层面 规定 了 匹配 的 括号 对 、 引 号 对 或 其 他 语言 结构 , 对 应 的 软 
件 也 依赖 于 这 些 结构 来 解析 DSL。 如 果 需 要 用 LLMs 生成 DSL, 就 需要 先 验证 现 有 
的 LLMs 是 否 能 够 根据 指令 生成 约定 的 DSL， 并 且 其 性 能 如 何 。 


3.1 ”常见 的 DSL 句法 规则 


最 常见 的 句法 就 是 匹配 的 括号 对 ， 其 基本 规则 是 每 一 个 左 括号 的 右边 都 有 一 
个 右 括号 与 之 匹配 。 这 样 的 语法 结构 在 众多 编程 语言 或 DSL 中 都 有 应 用 ， 例 如 
Python, Lisp 和 JSON 等 。 如 果 字 母 表 对 仅 包 含 '(' 和 ') ' 两 个 字符 ， 

么 最 简单 的 插 号 对 是 '()'。 给 定 一 个 字符 串 s € 3* ， 一 种 常用 来 验证 此 字符 串 
是 否 属于 合法 括号 对 的 算法 是 使 用 栈 来 验证 , 但 对 于 仅 有 两 种 字符 的 情况 , 可 以 简 
化 为 公式 (3-1) 所 示 的 函数 Legal(s) 来 验证 s 是 合法 的 字符 串 前 绥 。 


|s| if sli] = '(' 
Legal(s SA fee n _ J > o (3-1) 


一 < 


当 字 母 表 DASHES, Min C-LUR; L={ C, T’ '{'}; R= 
{9% 15, 0), MRI AEN s € I 构成 集合 L(G) ， 那 么 图 3-1 所 示 的 算法 


可 以 验证 个 字符 串 5 Eh ATHE A (G ) , 其 中 G 是 语法 ，e 是 空 串 。 


LEGAL-BRACKET-FAIRS (s € &*,m: L > R): 
lo¢f] > 初始 化 空 栈 o 
2 for cin s: > FKF Vi, ce) € s 
if c in m: > 字符 c 是 左 括号 
pushctoo > 将 字符 入 栈 v 


else: > 字符 c 是 其 他 字符 
|< (pop o) if |0| > 0 else £ 
ifm(l)#c: > c 不 能 与 1E 工 匹配 
return False > s 不 是 合法 字符 串 
9 return |o| 30 > vil € L) € s ILA AA 


图 3-1 检查 括号 对 是 否 匹配 的 算法 
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除了 括号 对 外 , 字符 串 转 义 也 是 各 种 DSL 中 常见 的 句法 规则 。 当 用 一 对 引号 包 
一 串 字 符 时 ， 这 一 串 字 符 就 不 能 直接 的 包含 引号 ， 而 是 需要 转 义 。 如 果 表 示 包 含 
一 个 "字符 的 字符 串 , 则 需要 写成 \"”" 而 不 是 """ ,否则 应 用 程序 的 语法 解析 器 会 
在 第 二 个 " 字符 处 理 完 毕 后 结束 字符 串 的 解析 而 导致 信息 损失 。 


3.2 ”验证 DSL 生成 性 能 的 实验 思路 


ii 
ini 


既然 匹配 的 括号 对 和 字符 串 转 义 是 DSL 中 广泛 存在 的 句法 规则 ， 那 么 要 验证 
语言 模型 的 DSL 生成 性 能 , 就 可 以 先 从 这 两 方面 入 手 。 如果 语言 模型 连 这 些 最 基本 
的 句法 规则 都 无 法 遵循 ， 那 么 生成 更 为 具体 的 DSL 的 性 能 显然 不 会 很 好 。 
由 于 GPT 等 常见 语言 模型 是 自 回归 模型 , 其 生成 的 文本 是 逐个 词 元 生成 的 , 那 
么 对 于 这 些 语言 模型 , 他 们 要 生成 合法 括号 对 L(G) 的 前 提 是 生成 合法 括号 对 字符 
串 的 前 级 。 假 设 语言 模型 仅 预测 的 词 元 是 1='(' 和 7 一 ')' ， 根 据 公 式 (3-1) 和 合 
法 括号 对 的 规则 可 知 I= {sre |Vs € L(G), x € Ot} 是 非法 的 括号 对 集合 。 


97.8% 
ONES, ey OIE an 


((((((())))))) a > (((((((()))))))) £ > 
图 3-2 让 语言 模型 (GPT-2) 预测 下 一 个 括号 的 概率 
实验 的 基本 思路 是 构建 字符 串 s =r” e L(G, WAR 3-1 的 提示 词 让 模型 
FN OC 或 ')' 的 概率 ， 而 ”=') 的 概率 恰好 就 是 错误 率 ， 束 如 图 3-2 所 示意 。 
表 3-1 ik LLMs 补 全 括号 对 字符 串 的 提示 词 


中 文 提 示 词 英文 提示 词 
给 定 一 个 仅 包含 (, ) 的 字符 串 。 Given a string containing only (, ). 
有 效 的 括号 对 字符 串 必须 满足 : A valid bracket pair string must satisfy: 
1. 每 个 左 括号 的 右 侧 都 有 一 个 与 之 匹配 的 唯 1. The right side of each left bracket has a unique 
一 对 应 的 右 括 号 。 corresponding right bracket that matches it. 


2. 不 同位 置 的 左 括号 与 不 同位 置 的 右 括号 相 2. Left brackets in different positions match 


匹配 。 right brackets in different positions. 
有 效 的 括号 对 字符 串 : A valid bracket pair string: 
“n+ PC + ")" Fy! Se \n te "(" Fn + ")" Fn, 


:这 里 的 意思 是 提示 词 的 末尾 连接 换行 符 和 字符 串 Pr” 


12 


3.3 ”验证 语言 模型 的 DSL 生成 性 能 

通过 给 语言 模型 提示 词 和 r” © L(G) ， 让 其 生成 下 一 个 词 元 x ， 计 算 z = / 
或 z =r 的 概率 ， 就 可 以 得 到 语言 模型 在 合法 括号 对 生成 任务 上 的 性 能 。 图 3-3 展 
示 了 在 四 种 模型 上 实验 ， 随 着 |s| 的 增加 ， 生 成 + 和 不 合法 串 的 概率 的 变化 。 


1.0 f 1.0 f 1 
.8r 0.8 F 4 
GF 0.6 F J 
Ar 0.4 F J 
2r + Right parenthesis 1 0.25 på ~ 。 Right parenthesis 4 

—— Illegal prefix è P —— Illegal prefix 
.0 É 1 if l ji ii j 1 al 0.0 BG À L L L L L L ,| 
0 50 100 150 200 250 300 0 50 100 150 200 250 300 
(1) OpenAI/GPT-2! 117M33] (2) OpenAI/GPT-2 Large? 762MP?! 

1.0 F 1.0 ' va rs 4 
.8r 0.8 F à: a 
0.6 I 0.6 F å J 
Ar 0.4 F 4 
02r s av . Right parenthesis 7 0.25 Right parenthesis 4 
“oe —— Illegal prefix = —— Illegal prefix 
.0 G 1 z på 1 ji i 1 1 a 0.0 E ut å L L L L L L J 
0 50 100 150 200 250 300 0 50 100 150 200 250 300 

(3) OpenAI/GPT-2 XL? 1542M"?! (4) Google/Gemma-7B* 7751MP4 


图 3-3 ”模型 生成 错误 DSL 的 概率 随 生成 长 度 而 增 大 
3-3 的 数据 显示 了 四 种 模型 在 |s| 增加 时 ， 错 误 率 r(e) 不 断 提 升 ， 也 就 是 说 
在 括号 对 这 种 基本 DSL 生成 任务 下 ， 其 DSL 生成 性 能 也 在 快速 下 降 。 
表 3-2 WRX r(e) 与 平均 字符 串 长 度 |s| 的 关系 


_ 模 型 名 称 ”参数 量 Daten lshon Isle% 


GPT-2 117M 2019-2-14 14 20 
GPT-2 Large 762M 2019-2-14 24 32 
GPT-2 XL 1542M 2019-2-14 32 36 
Gemma 7751M__ 2024-2-21 194 282 


K 3-2 表明 ， 参 数量 达到 一 亿 的 GPT-2 在 生成 字符 串 长 度 达 到 20 时 错误 率 就 
诡 升 到 95%， 即 使 是 参数 量 达 到 近 78 亿 的 Gemma 模型 ， 其 |s| 达到 282 时 ， 错 误 
率 也 高 达 95% 以 上 。 这 些 语言 模型 的 DSL 生成 性 能 是 不 可 接受 的 。 


"https://huggingface.co/openai-community/gpt2 
”https://huggingface.co/openai-community/gpt2-large 
>https://huggingface.co/openai-community/gpt2-x1 
*https://huggingface.co/google/gemma-7b 


3.4 ”让 语言 模型 生成 DSL 是 困难 的 


在 一 定 任务 长 度 下 , 神经 网 络 可 以 正常 工作 , 但 随 着 长 度 增加 , 神经 网 络 失 效 
一 种 非常 典型 的 事情 。 人 类 “一 目 了 然 ” 的 情况 ， 神 经 网 络 可 以 解决 。 但 是 ， 如 果 
要 做 一 些 “ 更 算法 化 ”的 事情 (例如 明确 地 计算 括号 以 查看 它们 是 否 匹 配 ), 神经 网 
络 往往 在 某 种 程度 上 因为 “计算 太 浅 ?而 无 法 可 靠 地 完成 ， 就 算是 当前 完整 1750 亿 
参数 的 ChatGPT 也 很 难 正确 匹配 长 序列 中 的 括号 对 9。 

大 语言 模型 通常 使 用 自 回归 模型 来 生成 文本 。 在 自 回 归 模 型 中 ， 下 一 个 词 的 
概率 分 布 取 决 于 前 面 的 词 。 然 而 ， 如 果 每 次 都 选择 概率 最 高 的 词 ， 模 型 将 过 于 “ 保 
守 ” 而 缺乏 创意 和 多 样 性 。 在 大 语言 模型 工业 实践 当中 ， 不 同 的 采样 器 可 以 用 来 帮 
助 语言 模型 提升 性 能 。 常 见 的 采样 方法 有 随机 采样 、 仿 禁 搜 索 (Greedy search) R 
搜索 (Beam search) 和 核 采 样 (Nucleus sampling) 等 方法 。 

LLMs 采样 之 前 还 可 以 进行 例如 “温度 ”的 后 处 理 操 作 来 改变 模型 输出 层 Logits 
张 量 中 的 概率 分 布 ， 以 影响 采样 。 不 同 的 采样 参数 是 语言 模型 的 超 参数 ， 这 些 超 参 
数 可 能 会 影响 LLMs 的 输出 和 性 能 表现 B534。 大 语言 模型 的 温度 参数 是 在 工程 实践 
中 经 常 调 节 的 参数 之 一 ， 其 值 是 大 于 或 等 于 0 的 浮 点 数 ， 通 常 介 于 [0,1] 之 间 (大 
于 1 会 导致 模型 性 能 快速 下 降 83)， 用 于 调整 模型 输出 的 多 样 性 。 
温度 采样 与 玻 尔 兹 曼 分布 有 关 , 它 给 出 一 个 系统 处 于 某 种 状态 的 概率 , 如 公式 
(3-2) 中 的 på 描述 了 该 状态 的 能 量 及 温度 的 概率 测度 函数 。 

1 es/ (kT) 


ao De es5/(kT) G2) 
j= 


a i 


公式 (3-2) 与 公式 (3-3) 的 softmax 函数 非常 相似 ,只 不 过 softmax 函数 没有 在 
向 量 z 上 除 以 AT o mE TRE. p WAWR, m TRR p 的 分 布 越 集 
H, 就 如 图 3-4 所 示 。 温度 采 样 通 过 调整 参数 工 来 改变 词 元 的 概率 分 布 , 增 大 人 可 
以 显著 增加 大 语言 模型 输出 内 容 的 多 样 性 。 


Zz, 
softmax (— 3 Eg (3-3) 
_2./T 
T De. gl 


14 


È 0.75 


0.50 


图 3-4 ”指数 分 布 的 概率 密度 函数 图 


玻 尔 兹 曼 分 布 是 一 种 P(z) ~ Exp(z) 的 指数 分 布 。 如 图 3-4 所 示 ， 当 入 从 1.5 


降低 到 0.5 时 ， 分 布 越 来 越 平缓 ， 这 意味 着 温度 提高 会 使 得 其 他 可 能 性 的 词 更 有 可 


能 被 选中 。 特 别 地 ， 温 度 为 0 时 相当 于 选择 概率 最 大 的 Top-1 词 元 。 


2 


<N <N 


Q Q Q 


Q 


Oo 5 ot po ot po © po 


图 3-5 合法 括号 对 字符 串 的 树 状 示意 图 


自 回 归 语 言 模型 生成 一 串 文 本 , 相当 于 在 一 个 巨大 的 单词 表 上 进 


行 采 样 。 对 于 


匹配 括号 对 这 样 的 任务 来 说 , 单词 表 可 以 仅 有 左右 括号 和 EOS 三 个 词 元 。 语 言 模型 
MZE e 开始 在 如 图 3-5 的 树 状 图 上 ”“ 游 走 ”， 在 正确 的 位 置 上 “ 停 下 来 ”生成 EOS 
词 元 ) 是 艰难 的 。 因 为 正确 位 置 非常 稀少 , 错误 路 径 数量 总 是 超过 正确 的 路 径 数量 。 


35 ANA 


由 于 LLMs 的 采样 通常 具有 “温度 ”等 随机 性 ， 只 要 走 错 一 步 就 < 前功尽弃 "了 。 


本 章 研究 了 DSL 的 典型 句法 特征 “匹配 括号 对 ”， 然 后 给 出 了 匹配 括号 对 的 验 


证 算法 和 规律 。 之 后 , 本 章 介绍 了 验证 语言 模型 生成 DSL 性 能 的 实验 思路 。 本章 重 


点 展示 四 种 语言 模型 在 括号 对 生成 任务 上 的 性 能 ， 结 果 显 示 这 些 语言 模型 在 生成 
DSL 任务 上 的 性 能 是 难以 接受 的 。 最 后 , 本 章 从 理论 上 简单 解释 了 自 回归 语言 模型 


在 生成 DSL 任务 上 性 能 不 佳 的 原因 。 
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4 产生 DSL 的 基本 规则 与 范式 、 异 步 与 协 程 


4.1 形式 语言 层次 与 基本 概念 


递归 可 枚 举 


EFRA 


REE 
正则 
图 4-1 乔 姆 斯 基 谱 系 
语言 学 家 诺 姆 : 乔 姆 斯 基 (Avram Noam Chomsky) 于 1956 年 提出 了 著名 的 乔 姆 
斯 基 谱 系 。 乔 姆 斯 基 谱 系 是 计算 机 科学 中 描述 形式 文法 表达 能 力 的 一 个 分 类 谱系 。 
它 将 形式 语言 分 为 四 个 层次 吧 ， 并 且 逐 级 包含 ， 如 图 4-1 和 表 4-1 所 示 。 
表 4-1 乔 姆 斯 基 谱系 的 四 种 语法 类 型 
语法 类 型 ”语言 类 型 。 可 识别 自动 机 。 产生 规则 
0- 型 ” 递归 可 枚 举 图 灵机 (ye) 3a 


EPLE ”线性 有 界 自动 机 aA8 > ayp 
HO 上 下 文 无 关 FRA  A>a 


2- 型 
3 型 EN 有 限 状态 自动 机 A90B 

专门 研究 和 表达 语言 语法 的 理论 称 作 形 式 语言 理论 ， 而 能 被 数学 或 计算 机 准 
确 处 理 的 语言 被 称 作 形 式 语言 。 领域 特定 语言 作为 一 种 形式 语言 , 其 语言 也 包含 了 
两 部 分 : 语法 和 语义 。 首先, 语法 是 DSL 的 基础 ， 如 果 一 个 串 的 语法 有 问题 ,这 个 
串 就 不 能 被 约定 的 计算 机 程序 所 识别 ， 并 且 也 难以 简单 的 修复 或 恢复 信息 。 

形式 语言 定义 在 一 个 特定 的 字母 表 上, 例如 集合 LC, e} 就 是 一 个 字母 
K CRP && 表示 结束 符 )， 和 集合 {1,0} 也 可 以 是 一 个 字母 表 。 形 式 语言 的 字母 表 恰 
巧 与 大 语言 模型 的 词汇 表 相 对 应 。 

如 果 有 一 个 字母 表 允 ,字母 表 上 长 度 为 n 的 串 记 作 2" ， 而 任意 长 度 的 串 记 作 
2* ， 特 别 定义 I 是 仅 包 含 空 串 的 集合 {e}. FERE ERAR LRA W GK 
RA L(G) CS. Ha be, ab 表示 两 者 左右 连接 ，a* 表示 a 重复 天 次 。 

K 4-1 中 乔 姆 斯 基 谱 系 中 的 上 下 文 无 关 文 法 (CFG) 拥有 足够 强 的 表达 能 力 来 
表达 绝 大 多 数 的 编程 语言 ， 是 描述 编程 语言 语法 的 首选 形式 。 
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42 ”产生 式 与 上 下 文 无 关 语 言 


形式 语言 的 的 语法 由 产生 规则 定义 ， 产 生 规 则 包含 了 有 限 的 非 终结 符 N 集 、 
有 限 的 终结 符 集 (字母 表 )〉 D ARERR PÉU EUNN UNY 一 
(DUN) 和 开始 符号 SEN, MTAG=(N, 5, P, S) 定义 了 一 个 形式 文法 。 
Al="C Hr=")"> AAR VA (4-1) 来 表示 合法 的 括号 对 序列 。 
P = {5 > £, S > IS7S) (4-1) 
公式 (4-1) 与 公式 (4-2) 表达 的 含义 相同 ， 但 是 公式 (4-2) 可 能 更 加 清晰 。 
(Pairs) > (Pair) 
(Pairs) > (Pair) (Pairs) 
(Pair) — ( (Pairs) ) 
(Pair) > € 
上 下 文 无 关 语言 作为 编程 语言 语法 的 首选 形式 ， 当 然 也 可 以 用 来 定义 C 语言 。 
图 4-2 左 侧 展示 了 由 CFG 的 产生 规则 定义 的 C 语言 的 一 个 子 集 的 语法 。 一 串 简单 
的 C 语言 代码 字符 串 if (x>9) {x= 0 y=y +15 1 可 以 被 语法 规则 分 解 为 如 
图 4-2 右 侧 的 树 状语 法 结构 。 


(4-2) 


(Stmt) 
if ¢ (Expr) 3 (Stmt) 
(Expr) (Optr) (Expr) 
(Id) 
x (Optr) 
ps 


(Expr) 
(Num) 
9 (Stmt) 
(Stmt) — (Id) = (Expr) ; { (StmtList) } 
(Stmt) — { (StmtList) } (StmtList) (Stmt) 
(Stmt) — if ( (Expr) ) (Stmt) — tm) — 
(StmtList) — (Stmt) (Id) = (Expr) ; 
(StmtList) — (StmtList) (Stmt) x = (Expr) 
(Expr) — (Id) (Num) 
(Expr) + (Num) 0 (Stmt) 
(Expr) — (Expr) (Optr) (Expr) (Id) = (Expr) 
Ge y (Expr) 
(Id) > y (Expr) (Optr) (Expr) 
(Num) > 0 (id) 
(Num) > 1 y (Optr) 
(Num) 一 9 + (Expr) 
(Optr) — > (Num) 
(Optr) > + if ( x > 9 fe = 0 yay + 1 2) 


图 4-2 CERU 形式 语法 的 一 个 子 集 和 树 状 结构 [1 
4-2 中 的 (Stmt) 即 表 示 一 个 语句 ，(StmtList)》 表示 多 个 语句 ，(Expr) 表示 
DRAR, (Id) 表示 一 个 标识 符 ，(Num) 表示 一 个 数字 ，(Optr) 表示 一 个 操作 
符 。 这 些 非 终结 符 通过 规则 展开 ， 可 以 构成 一 个 合法 的 C 语言 代码 字符 串 。 


43 ”常见 领域 特定 语言 的 规则 


用 于 表达 形式 语言 的 一 系列 数学 符号 和 延 拓 可 以 称 为 元 语言 ， 指 的 是 讨论 或 
研究 语言 本 身 时 所 用 的 语言 。 除 了 上 述 数 学 符号 可 以 用 来 表达 DSL 外 , 巴 科 斯 范式 
(Backus Normal Form, BNF) 或 其 扩展 EBNF 也 可 以 用 于 表达 DSL， 并 且 其 本 质 上 
Section 4.2 所 述 的 形式 语言 语法 G = (N, D, P, S) 等 价 。 BNF 被 广泛 地 用 于 编程 
语言 、 指 令 集 和 通信 协议 等 领域 ， 当 然 也 包含 本 文 Section 2 所 述 的 各 种 DSL. 

由 于 各 种 互联 网 技术 规范 都 需要 定义 一 个 正式 的 语法 规则 ， 这 种 需求 导 
致 BNF 的 另 一 种 增强 形式 ABNF (Augmented BNF) 出 现 并 已 受到 许多 人 的 欢迎 [4。 
ABNF 是 BNF 的 一 个 扩展 , 它 平衡 了 紧凑 性 、 简单 性 与 合理 性 , 适合 用 于 描述 DSL 
的 语法 ， 并 成 为 一 个 互联 网 标准 (STD 68, RFC5234)! 。 


"title": "引导 大 语言 模型 生成 计算 机 可 解析 内 容 "， 
"author": "ERME", 
"id": 20202005312, 
"keywords": [ 
"Large language models", 
"Structured content generation", 


"Computer-aided programming", 
"Constrained decoding", 
"Coroutine", 
"Context-free grammar" 
l 
"date": "2024-04-07" 
} 


图 4-3 一 个 JSON 字符 串 样 例 
一 个 典型 的 DSL Æ JSON 语言 , 一 个 样 例如 图 4-3 所 示 , 它 因为 包含 括号 对 且 
括号 对 能 够 “递归 ”的 互相 嵌 套 而 不 属于 正则 语言 ， 是 一 种 典型 的 上 下 文 无 关 语 言 。 
JSON 语言 的 部 分 语法 规则 可 以 用 如 图 4-4 所 示 的 元 语言 来 描述 。 


JSON 
value 
object 
array 
number 


ws ] value [ ws ] 

alse | null | true | object | array | number | string 
{' [ member *( ',' member ) ] ‘}' 

[' [ JSON *( ',' JSON) I 9 

[ '-' ] int [ frac ] [ exp ] 

t"! *char '"' 

[ ws ] string [ws] ':' JSON 

('e' | 'E') [ '-' | '+" ] 1*digit 

'@' | ( onenine *digit ) 

' 1*digit 


十 一 


string 
member 


exp 
int 
frac 


图 4-4 JSON 的 简要 语法 表示 


‘https://www.rfc-editor.org/info/std68 


图 4-4 中 的 ws 表示 任意 空白 字符 (例如 U+0020, u+e@eea, U+eeeD, U+9009 等 )， 
char 表示 任意 字符 〈 如 果 歧 义 则 需要 转 义 )，digit 表示 数字 (0 到 9 ) 字符 ，onenine 
表示 非 零 (1 到 9 ) 数字 字符 。 除 此 之 外 ， 形 如 [A ] 的 串 表 示 A 是 可 选 的 ( 即 A 或 
TEP e) *A 表示 A 可 以 出 现任 意 次 ，1*A 表示 A 至 少 出 现 一 次 ; A | B 表示 A 或 8 
之 一 ; 用 单 引 号 括 起 来 的 串 'A' 表示 属于 I 的 具体 的 终结 符 。 


Oo 


request-header := Accept 
Accept-Charset 
Accept-Encoding 
Accept-Language 
Authorization 
Expect 
From 


Host 
If-Match 
If-Modified-Since 


If -None-Match 
If-Range 
If-Unmodified-Since 
Max-Forwards 
Proxy-Authorization 
Range 

Referer 

TE 

User-Agent 


图 4-5 HTTP/1.1 的 请 求 标 头 字段 的 语法 示意 

除了 JSON 之 外 ， 超 文本 传输 协议 (Hypertext Transfer Protocol, HTTP) 也 可 视 
为 一 种 DSL， 因 为 RFCs H ABNF 定义 了 它 的 文法 多。HTTP 是 为 分 布 式 、 协 作 和 
超 媒体 信息 系统 而 设计 的 应 用 程序 级 别 协议 ， 被 全 球 互 联网 使 用 。 

4-5 中 的 Accept 、 Accept-Charset 和 Accept-Encoding 等 都 是 HTTP/1.1 请 求 
标 头 字段 的 一 部 分 ，HTTP 的 部 分 语法 规则 如 图 4-5 所 示 ， 作 为 简单 举例 。 

对 于 图 文 排版 ，Typst 就 是 一 个 为 排版 设计 的 可 编程 的 标记 语言 和 软件 B31 。 
4-6 展示 了 这 个 软件 能 够 将 Typst 的 DSL 演 染 为 富 文本 并 呈现 给 用 户 。 同 样 ，Typst 
的 DSL 也 能 够 由 BNF 来 表达 ， 图 4-7 呈现 了 Typst 的 部 分 语法 规则 作为 参考 。 


#set par(leading: @.5em) * Sine Function: 
- *Sine Function: * 


- $F(x)=sin(x)$\ > f(x) = sin(x) 


- *Cosine Function:* e Cosine Function: 
- $F(x)=cos(x)$ > f(x) = cos(x) 


(1) Typst DSL HE fø] (2) 处 理 后 的 富 文本 


图 4-6 Typst 将 DSL 泻 染 为 富 文本 


'V tE? 
(!special)+ 
' special 


linebreak 
text 
escape 
quote 
strong 
emph 

raw 

link 

math 
heading 
list 

enum 

desc 
label 

ref 
markup-expr : 


"*" markup '*' 
'_' markup '_' 
"(raw | .*) 
"http"! 's'? '://' (!space)* 
CS? S) | CSE SR) 
'='+ space markup 

-' space markup 

igit* '.' space markup 
/' space markup ':' space markup 
<' ident ">" 

'@' ident 

block | ('#' hash-expr) 


d 


图 4-7 Typst 的 基本 语法 示意 pa 
4.4 递归 下 降 的 解析 和 生成 器 


为 了 让 计算 机 程序 能 够 识别 DSL， 首 先 需 要 将 s € L(G) 中 的 各 个 子 串 分 析 为 
符号 , 然后 根据 产生 规则 书生 成 语法 树 。 递 归 下 降 是 一 种 常见 的 解析 方法 , 它 是 一 
种 自 顶 向 下 的 解析 方法 ， 即 从 根 节 点 开始 ,递归 地 加 下 解析 ， 直 到 叶子 节点 。 递 归 
下 降解 析 器 的 每 个 非 终结 符 me N 对 应 一 个 可 递归 的 函数 。 

包含 左 递归 的 形式 语法 不 能 被 简单 的 递归 下 降解 析 器 解析 ， 除 非 它 们 被 转换 
为 弱 等 效 的 右 递归 形式 。 一 些 研究 表明 ， 通 过 使 用 “缩减 >， 可 以 在 更 复杂 的 自 上 而 
下 的 解析 器 中 容纳 左 递归 语法 〈 以 及 所 有 其 他 形式 的 通用 CFG) Ma, 


value = async function(set: Setter<JSONValue>) { 
const token = await this.token.read(); 
switch (token.type) { 


case TokenType. 
. token. unread(token) ; 
await this. 


await this 


break; 


case TokenType. 
.token.unread(token); 
.array(set); 


await this 
await this 
break; 


case TokenType. 
case TokenType. 
case TokenType. 
.token.unread(token); 
await this. 


await this 


break; 


case TokenType. 
case TokenType. 
case TokenType. 


LeftBrace: 
object(set); 


LeftBracket: 


Digits: 
Negtive: 
Positive: 


number(set); 
Bool: 


Null: 
String: 


await set(token.value); 


break; 
default: 


console.error(’ unexpected token 


: $(token) ); 


图 4-8 采用 异步 递归 下 降 的 解析 ISON 值 的 伪 代 码 
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如 图 4-4 所 示 的 JSON 语法 对 应 的 语言 作为 一 种 上 下 文 无 关 语言 ， 当 然 可 以 被 
递归 下 降 的 解析 方法 解析 为 应 用 程序 中 的 数据 结构 。 图 4-8 展示 了 一 个 异步 递归 下 
降解 析 器 的 示例 (基于 TypeScript 语言 ， 但 请 当 作 伪 代 码 参 考 )。 


number = async function(set: Setter<number>) { 
// sign part (optional) 
const sign = await this.sign(); 
// integer part 
const intToken = await this.matchToken(TokenType.Digits); 
let num = parseInt(intToken.value as string); 
// fraction part (optional) 
const dotToken = await this.matchOptionalToken(TokenType.Dot) ; 
if (dotToken !== undefined) { 
const intToken = await this.matchToken(TokenType.Digits) ; 
num += parseFloat( Ø.$(intToken.value) ); 
} 
// exponent part (optional) 
const eToken = await this.matchOptionalToken(TokenType.E); 
if (eToken !== undefined) { 
// sign part (optional) 
const sign = await this.sign(); 
// exponent part 
const intToken = await this.matchToken(TokenType.Digits) ; 
const int = parseInt(intToken.value as string); 
num *= Math.pow(10, sign * int); 


await set(sign * num); 


图 4-9 采用 异步 递归 下 降 的 解析 ISON 数字 的 伪 代 码 

采用 递归 下 降 的 解析 方法 , 通常 需要 一 些 工 具 函 数 , 例如 图 4-8 中 所 示 的 读 词 
元 Token 的 函数 token.read() 和 回 退 词 元 的 函数 token.unread() 。 这 相当 于 有 一 个 
指针 从 头 到 尾 的 扫描 待 解析 的 字符 串 ， 在 必要 的 时 候 还 可 以 进行 回溯 。 

如 果 将 自 项 向 下 的 解析 器 反 过 来 ， 从 开始 符号 S 开始 ， 从 语法 G 的 产生 规则 
忆 递 归 地 向 叶子 节点 生成 终结 符 x € 5, 就 可 以 得 到 一 个 递归 下 降 的 生成 器 在 每 
一 个 生成 函数 中 选择 不 同 的 递归 函数 调用 路 线 可 以 视 作 在 语言 L(G) 中 采样 ,直到 
达到 叶子 节点 (BOF 等 符号 也 视 作 叶子 节点 )， 语 言 生成 完毕 。 


4.5 ”异步 、 协 程 和 生成 器 函数 


自 顶 向 下 的 解析 器 有 一 个 典型 问题 ; 通常 在 解析 字符 串 s © 3* 之 前 ,字符 串 s 
应 该 已 经 完全 加 载 到 内 存 中 。 这 带 来 的 问题 是 如 果 在 一 开始 就 s E L(G) 或 数据 在 
言 妃 传输 过 程 中 损坏 , 解析 器 仍然 要 等 待 整个 信息 传输 完毕 , 然后 再 进行 解析 ， 当 
然 最 终结 果 一 定 是 解析 失败 。 如 果 传输 了 一 个 1024GiB 的 超大 JSON 数据 文件 , 然 
后 解析 失败 了 ， 这 显然 带 来 了 解析 之 前 的 大 量 计 算 损耗 。 
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对 于 大 语言 模型 也 是 同样 的 道理 , 如 果 语 言 模 型 输出 了 3000 个 Token 的 序列 ， 
然后 再 由 后 面 的 程序 解析 时 发 现 DSL 有 误 , 信息 就 无 法 被 识别 了 , 那么 大 量 的 神经 
网 络 计算 就 “浪费 ” 掉 了 。 解 决 这 个 问题 的 一 个 方案 是 采用 异步 和 协 程 。 

异步 是 指 多 个 操作 可 以 同时 发 生 ， 而 不 必 等 待 彼此 完成 (阻塞 ) [7 。 这 可 以 通 
过 多 种 方式 实现 , 例如 多 线程 、 多 进程 或 事件 驱动 编程 。 协 程 是 一 种 异步 的 计算 机 
程序 组 件 , 是 可 以 暂停 和 恢复 执行 的 函数 。 协 程 通常 用 于 实现 异步 编程 ， 因 为 它 允 
许 在 一 个 线程 中 执行 多 个 操作 ， 而 不 会 阻塞 其 他 操作 。 

ERE GRENSER) 是 协 程 的 一 个 子 集 。 尽 管 两 者 都 能 够 通过 多 
次 yield 表达 式 暂 停 执行 并 允许 在 多 个 入 口 点 重新 进入 ， 但 它们 的 主要 区 别 在 于 协 
程 能 够 控制 让 出 控制 权 后 程序 继续 执行 的 位 置 , 而 生成 器 则 不 能 。 生 成 器 只 能 将 控 
制 权 转 移 回 其 调用 者 co。 换言之 ,由 于 生成 器 函数 主要 用 于 简化 迭代 器 的 编写 ， 其 
yield 语句 并 不 是 用 于 跳 转 到 另 一 个 协 程 ， 而 是 将 值 传 回调 用 它 的 父 级 例 程 。 

各 种 高 级 语言 所 支持 的 生成 器 函数 是 实现 协 程 的 一 种 方式 ， 它 可 以 生成 一 个 
值 的 序列 。 生 成 器 函数 使 用 yield 关键 字 来 暂停 当 执 行 〈 同 时 会 保留 当前 执行 的 上 
下 文 ) 并 产生 一 个 值 。 以 TypeScript 为 例 ， 生 成 器 6 可 以 通过 G.next() 函数 来 恢复 
执行 ，G.return() 函数 来 结束 执行 ， 以 及 G.throw() 函数 来 抛 出 异常 。 

正如 图 4-9 中 所 示 的 async 和 await 关键 字 ，async 代表 一 个 函数 是 异步 的 〈 那 
么 它 的 调用 会 返回 一 个 生成 器 对 象 )，await 代表 等 待 一 个 异步 操作 完成 。 这 种 异步 
的 生成 器 函数 可 以 用 来 解析 和 生成 DSL， 因 为 它 可 以 在 解析 或 生成 过 程 中 暂停 和 
恢复 执行 ， 而 不 会 阻塞 其 他 操作 。 

例如 当 我 们 想 要 解析 一 个 形 如 -123.456e-7 的 数字 时 ， 我 们 可 以 用 异步 生成 器 
函数 来 实现 ， 如 图 4-9 所 示 。 首 先 解析 符号 部 分 '-' ,其 次 解析 整数 部 分 '123' , 之 
后 遇 到 小 数 点 "… 则 解析 小 数 部 分 '456' ， 最 后 遇 到 et 则 解析 指数 的 符号 部 分 '-' 
和 指数 的 整数 部 分 '7' 。 在 每 一 步 解析 完成 后 我们 可 以 暂停 解析 器 ,等 待 其 他 操 
作 完成 ， 然 后 再 恢复 解析 器 继续 解析 。 

如 果 采 用 异步 的 递归 下 降解 析 器 ， 同 时 采用 异步 的 字符 串 读 取 器 《其 构建 了 
一 个 缓冲 区 用 于 加 载 字符 串 )， 那 么 两 个 装置 就 能 互相 配合 形成 一 种 基于 协 程 的 装 
置 .这样 的 解析 器 可 以 一 边 加 载 字 符 串 , 一边 解 析 DSL 为 指定 的 数据 结构 , 并 且 可 
以 在 解析 器 遇 到 错误 时 立马 停止 加 载 和 解析 ， 节 约 了 计算 资源 。 
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4.6 ”用 协 程 产生 领域 特定 语言 


协 程 的 实现 不 依赖 任何 编程 语言 的 特性 ， 虽 然 有 些 编程 语言 不 支持 yield 关键 
字 ， 但 是 任何 图 灵机 都 可 以 等 价 地 实现 yield， 因 为 yield 可 以 被 转换 为 “Switch- 
case"” 和 上 下 文 状 态 的 存储 。 

实际 上 , 任何 async 和 await 都 可 以 被 等 价 地 转换 为 生成 器 函数 和 yield 。 这 也 
就 是 说 , 异步 是 可 以 基于 协 程 的 。 因 此, 异步 的 递归 下 降解 析 器 也 可 以 被 等 价 地 转 
换 为 生成 器 函数 的 递归 下 降解 析 器 。 


crc} —* 入 到 CFG NT AS 


se 动 符 


图 4-10 一 种 通过 基于 异步 的 DSL 产生 装置 
本 文 设计 的 一 种 协 程 装置 如 图 4-10 所 示 。 它 接受 用 户 或 代理 程序 的 输入 流 并 
被 驱动 , 通过 异步 和 协 程 在 装置 内 维护 了 DSL 的 解析 和 生成 状态 ,每 一 次 对 装置 的 
驱动 被 称 为 一 次 询问 (询问 可 以 携带 信息 ， 也 可 以 是 空 询问 )， 每 一 次 询问 装置 都 
会 返回 一 个 引导 指令 。 引导 指令 可 以 携带 期 待 生成 的 符号 集 描述 、 精确 的 错误 信息 
和 恢复 信息 、 读 写 操作 信息 和 DSL 前 级 的 信息 等 ,用户 和 或 代理 程序 接受 引导 指令 
继续 驱动 此 装置 直到 输入 EOF. 这 个 过 程 中 , 装置 异步 解析 输入 流 为 约定 的 数据 
结构 ， 确 保 被 应 用 程序 正确 处 理 。 
此 装置 接受 开发 者 预定 义 的 CFG， 通 过 此 装置 的 CRG 解析 器 构造 出 一 个 异 
步 引 导 指令 生成 器 。 此 生成 器 经 过 缓冲 区 接受 输入 源 的 驱动 符 ， 产生 引导 指令 (In- 
struction DSL) 反馈 给 输入 源 。 输 入 源 也 可 以 是 采样 器 和 生成 器 。 采样 器 可 以 通过 随 
机 、 自 定义 逻辑 或 神经 网 络 等 方式 将 引导 指令 转换 为 一 个 DSL 符 号, 交 给 生成 器 产 
Æ DSL， 同 时 驱动 异步 指令 生成 器 继续 产生 引导 指令 ， 直 到 得 到 EOF 指令 ,领域 
特定 语言 的 生成 任务 就 完成 了 。 
此 装置 的 关键 点 在 于 采用 “异步 机 制 * 和 “生成 指令 ”。 具 体 来 说 ， 此 装置 第 一 个 
技术 关键 点 , 异步 语言 引导 和 生成 机 制 采 用 了 yield* (yield from) 。 此 装置 的 第 二 个 
技术 关键 点 ， 用 一 个 异步 的 生成 装置 产生 用 于 产生 DSL 的 指令 。 
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输入 源 


let input = yield new Instruction(...args); 


图 4-11 产生 用 于 生成 DSL 的 指令 的 语句 〈 伪 代码 ) 

4-11 描述 了 此 装置 通过 yield 产生 Instruction DSL 用 于 指导 DSL 验证 、 解 
析 和 生成 ， 其 中 args 是 这 条 指令 携带 的 信息 ，input 是 程序 B DSL 验证 、 解 析 和 
生成 器 ) 收 到 指令 后 向 程序 A 传递 的 信息 。yield 允许 程序 A (DSL 解析 程序 ) 立 
即 返 回 一 个 指令 生成 器 (Generator) 给 程序 B o 


let instruction = Generator.next(input) ; 


图 4-12 产生 用 于 生成 DSL 的 指令 的 语句 〈 伪 代码 ) 
如 图 4-12 ， 接 着 程序 A 在 运行 中 途 和 暂停 。 然 后 等 待 程序 B 用 询问 触发 指令 生 
成 器 的 next 方法 ,恢复 程序 A 运行 , 同时 程序 A 拿 到 询问 , 程序 A 运行 到 yield 处 
产生 引导 指令 ， 程 序 B 通过 next 方法 的 返回 值得 到 程序 A 的 引导 指令 。 重 复 这 个 
过 程 ， 直 到 程序 B 不 断 触发 程序 A 运行 到 DSL 分 析 相 关 算 法 结束 。 
yield* 指 的 是 将 DSL 引导 指令 的 产生 委托 给 另 一 个 程序 。yield* 同样 属于 部 分 
编程 语言 的 高 级 特性 。 通 过 yield* 使 得 DSL 的 形式 CFG 可 以 被 模块 化 表达 ， 且 可 
以 采用 递归 的 算法 处 理 或 生成 DSL。 把 此 装置 启动 的 顶层 称 做 top 函数 ， 若 此 装置 
接受 JSON HJ CFG, Mij let top = yield* json 表示 装置 顶层 产生 JSON 。 


let json = yield* select( 
number, 
string, 
object, 


array, 
false, 
true, 
null 


图 4-13 产生 用 于 生成 JSON 的 CFG 语句 〈 伪 代码 ) 
而 图 4-13 表示 JSON 由 数字 或 字符 串 或 列表 或 对 象 或 真 或 假 或 空中 的 一 个 构 
Ro E, 具体 number, string, array... 的 文法 是 怎样 的 也 可 以 根据 CFG 来 确定 。 上 
图 表示 中 false, true, null 是 终结 符 ， 因 为 其 由 确定 的 字符 串 “false”, “true” 和 “null” 
构成 ， 而 object, array 产生 过 程 可 以 产生 number, string, false, true, null 甚至 其 自身 
object FX array 形成 递归 定义 。 由 于 yield* 机 制 可 以 委托 异步 任务 , 因此 可 以 实现 递 
归 定 义 。 此 装置 可 以 根据 此 CFG 产生 等 价 的 异步 程序 ， 其 他 任何 CFG 也 是 这 样 。 
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此 装置 的 男 一 个 关键 点 在 于 异步 产生 引导 指令 (Instruction DSL) » ， 引 时 指令 是 
验证 , 解析 和 生成 DSL 的 信息 。 也 能 够 根据 异步 输入 提供 精确 的 错误 信息 、 错误 恢 
复 信 息 等 。 接 下 来 将 特定 任务 上 的 最 小 信息 单位 称 作 token， 例 如 可 以 是 bit, byte, 
char, number 等 ， 尤 其 可 以 是 字符 或 单词 。 有 具体 来 说 ， 由 如 表 4-2 所 示 的 引导 指令 
包含 控制 指令 、 限 制 指令 、 建 议 指令 和 符号 指令 。 


表 4-2 用 于 生成 DSL 的 指令 举例 


控制 指令 NEAR FRNA token 的 指令 、 读 入 接 下 来 N 个 token 的 指令 、 撤 销 前 N 次 
读 入 的 指令 、 产 生 某 些 token 的 指令 、EOF 指令 等 。 
限制 下 一 次 读 入 具体 某 个 token 的 指令 、 限 制 下 一 次 读 入 token 仅 有 某 些 具体 可 

限制 指令 | 选 的 指令 、 限 制 下 一 次 读 入 token 应 该 在 某 个 范围 的 指令 、 限 制 下 一 次 读 入 token 
不 能 是 某 些 具体 的 指令 、 限 制 下 一 次 读 入 token 不 应 该 在 某 个 范围 的 指令 等 。 

已 读 入 的 倒数 第 N 个 token 不 符合 语法 的 指令 、 建 议 下 一 次 读 入 token 是 具体 哪 

些 的 指令 、 建 议 下 一 次 读 入 token 处 在 哪个 范围 的 指令 等 。 

进入 某 非 终结 符 m e 的 指令 ， 离 开 某 非 终 结 符 的 指令 、 完 成 生成 某 终 结 符 


ced 的 指令 等 。 


一 种 异步 DSL 解析 和 语言 生成 装置 Demo 
1 
21212 1=123 123++;; 
输 六 空 符号 
next null stop next null stop 
下 一 步 生成 /提示 “输入 EOF 并 结束 清空 所 有 状态 
p) 刷新 页 面 自动 生成 @ 刷新 页 面 


打开 连续 自动 生成 
let abc = 123; 


此 装置 “过滤 掉 了 输入 源 的 “干扰 ” 
生成 了 正确 的 DSL 


NeedOptionalChars(chars=[" ","\t","\n","\r"], advice=[" "]) NeedChar(char=""\u0000") 


WriteChar(char="c") ExpectChar(char="\u0000", got=";") 
NeedChar(char="c") NeedChar(char="\u0000") 
ExpectChar(char="c", 

NeedChar(char="c") 

WriteChar(char="b") 引导 指令 生成 预览 


MaadChar [aharthi) 


NeedChar(char=";") 


ExpectChar(char=";", 


MaadCharlrharot. it) 


(1) DSL 产生 指令 的 交互 演示 (2) 在 一 个 简单 的 DSL 上 演示 
图 4-14 采用 Section 4.6 中 装置 的 一 个 交互 Demo 
图 4-14 是 采用 Section 4.6 中 装置 的 一 个 交互 Demo 预览 界面 。 这 个 Demo 提 
供 了 一 个 人 机 交互 界面 用 于 人 工 操作 此 装置 。 为 了 易于 理解 , 此 Demo 配置 了 一 个 
简单 语法 的 CFG， 即 形 如 let abc = 123; 的 简单 文法 。 交互 主 要 包含 三 部 分 : 符号 
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输入 框 、 控 制 按钮 、DSL 生成 预览 和 引导 指令 生成 预览 。 其 中 符号 输入 框 是 一 个 输 
入 源 , 可 以 采集 键盘 输入 的 符号 , 然后 输入 到 本 装置 的 缓冲 区 。 控制 按钮 可 以 输入 
符号 输入 框 无 法 输入 的 控制 符 , 例如 下 一 步 (next) 、 空 (null) 、 结 束 符 (stop)。 点 击 
自动 生成 按钮 ,本 装置 能 够 生成 下 一 个 符号 一 次 , 若 自 动 生成 开关 打开 ， 则 会 一 直 
生成 到 DSL 结束 符 , 无 需 其 他 输入 。 刷新 页 面 按 钮 可 以 重 置 本 装置 和 此 交互 界面 。 
DSL 生成 预览 区 域 显示 了 本 装置 从 输入 源 采 集 到 的 合法 的 DSL MR. GR SE 
成 预览 区 域 显 示 了 本 装置 根据 输入 源 〈 输 入 框 或 采样 器 ) 生成 的 引导 DSL 生成 指 
令 ， 此 指令 能 够 进一步 指导 生成 装置 在 DSL 预览 区 域 生成 新 的 合法 DSL MR. 

一 个 异步 、 协 程 、 高 鲁 棒 性 的 DSL 产生 和 解析 装置 可 以 用 于 信息 传输 、 集 成 开 
发 、 教 育 软 件 、 数 据 挖掘 等 领域 。 表 4-3 介绍 了 Section 4.6 中 装置 的 用 途 。 

表 4-3 基于 协 程 的 DSL 产生 装置 可 能 的 用 途 


领域 可 能 具有 的 用 途 介 绍 


此 装置 能 够 以 更 高 的 鲁 棒 性 异步 解析 DSL 为 数据 结构 并 驱动 其 他 程序 
信息 传输 | 运行 , 无 需 等 待 整个 传输 完成 之 后 再 进行 解析 , 也 不 会 因为 传 入 消息 的 部 分 
DSL 结构 出 错 和 信息 丢失 而 导致 程序 崩 湿 。 


此 装置 将 能 够 以 更 高 的 效率 响应 用 户 的 输入 ， 并 实时 反馈 DSL 生成 的 引 
党 息 或 出 错 信息 ， 以 帮助 开发 者 输入 。 


此 装置 能 够 提供 精确 的 拼写 建议 、 错 误 反馈 和 修复 建议 。 因 此 适合 作为 DSL 
的 学 习 向 导 ， 帮 助 学 生 快速 掌握 DSL 的 文法 。 


此 装置 能 够 从 大 量 文 本 中 逐一 扫描 字符 , 并 提取 符合 CFG 的 字符 
数据 《例如 大 量 文本 ) 中 找到 目标 DSL 


数据 控 和 


4.8 ”本 章 小 结 


首先 , 本 章 介 绍 了 形式 语言 的 层次 和 基本 概念 , 给 出 了 上 下 文 无 关 语 言 与 产生 
式 的 关系 ， 然 后 介绍 了 形 如 BNF 的 元 语言 来 表示 语法 ， 并 列举 了 第 见 的 领域 特定 
语言 案例 和 它们 的 简要 语法 规则 。 之后, 本 章 介 绍 了 递归 下 降 的 语法 解析 器 和 生成 
器 , 提出 了 常见 解析 器 因 不 支持 异步 而 可 能 造成 计算 资源 浪费 的 问题 。 本 章 还 介绍 
异步 、 协 程 和 生成 器 函数 之 间 的 关系 〈 简 记 为 异步 C 生成 器 函数 C 协 程 )， 并 
给 出 了 一 个 基于 yield* 的 DSL 生成 装置 来 解决 上 述 问题 。 最 后 ， 本 章 介 绍 了 一 个 
基于 协 程 的 DSL 生成 装置 的 交互 演示 和 可 能 的 用 途 。 
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5 生成 开发 者 预期 的 DSL 通过 语言 模型 采样 


有 了 基于 协 程 的 语言 产生 或 解析 装置 后 , 还 需要 一 个 输入 源 。 输入 源 可 以 是 人 
K, 也 可 以 是 特定 的 计算 机 程序 。 本 章 将 重点 介绍 通过 基于 自 回 归 模 型 的 语言 模型 
作为 输入 源 ， 并 用 约束 装置 限制 语言 模型 的 采样 ， 以 生成 开发 者 预期 的 DSL. 
51 。 自 回 归 语 言 模型 

在 统计 学 、 计 量 经 济 学 和 信和 号 处 理 等 领域 中 ， 自 回归 模型 (Autoregressive 
model) 是 一 种 描述 随机 过 程 的 模型 。 它 可 以 用 于 描述 某 些 随时 间 变 化 的 自然 过 程 。 
自 回归 模型 AR(p) 可 以 被 公式 (5-1) 描述 ， 其 中 X, 是 时 间 t 的 随机 变量 ，p 是 模 
型 的 阶 数 ，y; 是 模型 的 系数 ，e, 是 时 间 t 的 随机 误差 。 


pin 


p 
X, = DD + Ey (5-1) 


a 

自 2017 年 著名 的 Transformer 模型 诞生 开始 ， 它 为 各 个 领域 提供 了 灵感 和 启 
发 。 不 同 领域 的 研究 人 员 基于 Transformer 研究 ， 衍 生出 了 一 系列 模型 ， 例 如 预测 
时 间 序列 , 搜索 推荐 领域 的 点 击 率 、 用 户 留存 率 预测 等 模型 ,而 著名 的 Transformer 
正 是 一 种 基于 自 回归 的 模型 em。2022 年 底 ，OpenAI 发 布 的 风靡 全 球 的 ChatGPT IE 
是 自 回归 模型 的 著名 代表 ， 是 一 种 从 左 往 右 学 习 的 模型 。 

自 回归 模型 利用 上 文 , 通过 估计 字母 表 忆 中 终结 符 的 概率 分 布 , 预测 下 一 个 终 
ER BABES, BERE z= (zi Tep) € 5* ， 自 回归 模型 可 以 
计算 出 下 一 个 终结 符 cg) 的 概率 分 布 p(z, 41) 如 公式 (5-2) ,那么 这 种 自 回归 模型 
就 是 自 回 的 归 语言 模型 ， 可 以 用 于 生成 自然 语言 或 DSL 等 诸多 类 型 的 任务 。 


p(x) = I [zc， |%1 + 72 t Lia) 
= (5-2) 
P(2n41) = P(En41 | 21° E2: -t Ly) 


52 ”语言 模型 生成 DSL 的 基本 思路 


接 下 来 以 JSON 文法 为 例 , 举例 语言 生成 和 修复 的 基本 逻辑 。 若 输入 源 已 经 输 
入 了 片段 ， 那 么 Section 4.6 所 述 的 协 程 装 置 可 以 根据 JSON 的 CFG 知道 
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下 一 个 字符 必须 是 冒号 。 为 什么 是 冒号 ?这 需要 查看 JSON 官方 ! 以 McKeeman Form 


约定 的 JSON 语法 。 如 图 4-4 所 示 的 object, members 和 member 的 定义 。 


object := '{' ws ')' 
'{' members '}' 
members := member 


member ',' members 
member := ws string ws ':' element 
string := """ characters '"' 


图 5-1 JSON 文法 中 object, members 和 member 的 定义 

我 们 始终 忽略 空白 字符 (ws, EX 的 产生 路 径 是 object 一 members 
— member , H. member 已 经 产生 到 string 的 末尾 了 。 要 产生 member ， 下 一 个 字符 
只 能 是 冒号 。 输 入 源 的 下 一 个 字符 如 果 不 是 冒号 ， 就 必然 不 符合 JSON 语法 。 

H, EX 的 下 一 个 字符 只 能 是 双 引 号 ， 因 为 根据 CFG, RKE 
的 逗号 意味 着 这 个 object 的 members 还 没 结 束 , 有 逗号 后 面 必须 是 新 的 members 而 
members 以 string 开头 ，string 的 开头 必须 是 双 引 号 。 

以 ISON 为 例子 ， 图 5-2 中 的 大 语言 模型 表示 ISON 的 第 一 个 字符 只 能 是 集合 
D’ E’ ""', tet, /1-9/, '-", ‘t's f, on 中 的 一 个 字符 ， 若 要 产生 ISON ， 
生成 器 只 能 从 这 个 集合 中 选择 一 个 字符 作为 ISON 字符 串 的 开头 。 


JSONATH Fs, M (s) 是 什么 ? (A) 


在 JSON 的 上 下 文中 ， 在 JSON (JavaScript Object Notation) 的 上 下 
文中 ， 我 们 通常 考虑 JSON 的 语法 规则 来 确定 哪些 字符 串 或 字符 可 以 
出 现在 特定 的 上 下 文中 。JSON 是 一 种 轻 量 级 的 数据 交换 格式 ， 它 基 
于 JavaScript 的 对 象 字面 量 语法 ， 但 是 独立 于 语言 ， 被 许多 编程 语 
言 所 支持 。 
如 果 我 们 考虑 一 个 空 字 符 串 s 作为 前 级 ， 那么 我 们 想 要 找 出 所 有 
可 能 的 字符 m ， 使 得 sm 是 一 个 有 效 的 JSON 结 构 的 前 级 。 在 JSON 
一 个 结构 可 以 是 : 
一 个 对 象 ， 以 { 开始 
一 个 数组 ， 以 【 开始 
一 个 字符 串 ， 以 ”开始 
一 个 数字 ， 可 以 以 任何 数字 或 - 开始 
一 个 布尔 值 ， 以 不 (true) & f (false) 开始 
一 个 nul1 值 ， 以 n 开始 

空 字 符 串 s ， 集 合 M(s) 将 包含 所 有 可 以 作为 JSON 结 构 


we eh, SO Md BO E: 
NN 
这 里 包括 了 所 有 的 数字 字符 ， 因 为 一 个 数字 可 以 以 任何 数字 开头 ， 
以 及 符号 - ， 因 为 一 个 负数 也 是 一 个 有 效 的 JSON 数 字 。 注 意 ， 这 个 
集合 不 包括 空格 、 制 表 符 或 其 他 空白 字符 ， 因 为 虽然 它们 可 以 出 现 
在 JSON 文 本 中 ， 但 它们 本 身 并 不 构成 一 个 独立 的 JSON 结 构 。 


图 5-2 [a] LLMs 询问 关于 JSON 可 能 的 开头 字符 集 


"https://www.json.org/json-en.html 
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当 输入 了 正确 的 字符 , 例如 输入 了 字符 '-' 那么 下 一 个 字符 只 能 是 '8' BK /1-9/ 
《这 表示 了 只 能 匹配 1, 2,3,...,9 其 中 的 一 个 字符 的 JavaScript 正则 表达 式 ), 因为 上 
文 '-' 导致 接 下 来 要 构成 JSON 只 能 继续 构成 number 并 以 此 类 推 。 


> JSON.parse(*{ "key": 0) 
@ PUncaught SyntaxError: Expected ',' or '}' after property VM234:1 


value in JSON at position 10 (line 1 column 11) 
at JSON.parse (<anonymous>) 
at <anonymous>:1:6 


图 5-3 Microsoft Edge 浏览 器 无 法 给 出 足够 精确 的 提示 
以 Microsoft Edge 浏览 器 的 V8 JavaScript 运行 时 举例 ， 如 图 5-3 所 示 ，Edge © 
示 期 待 的 字符 仅 有 ',' 和 ' 而 缺少 了 '.'，'E',，'e' 。 因 此 它 不 能 给 出 完整 和 精 有 
的 错误 和 恢复 信息 。 其 他 Parser Generator AJAN Antlr, Lark 等 ) 的 Parser 也 是 类 
似 的 情况 ， 无 法 做 到 给 出 错误 范围 ， 错 误 恢 复 建议 精确 到 足以 生成 DSL 的 程度 。 


N 


输入 JSON EX 
JSON EX 


1 { "key": 9 


A 解析 上 文 


期 待 的 字符 /正则 


在 解析 到 第 10 个 字符 时 ， APNTs 如 下 : 


期 待 值 (Char/RegExp) 


期 待 值 (Char/RegExp) 


图 5-4 计算 所 有 可 能 的 下 一 个 字符 集 的 装置 演示 

5-4 所 示 的 是 本 研究 的 装置 在 ISON 作为 CFG 的 一 个 可 视 化 例子 ， 当 解析 
{ "key": 9] 时， 此 装置 给 出 了 更 加 完整 和 精确 的 信息 以 供 DSL 的 产生 。 

5-5 给 出 了 一 个 示意 图 , 它 一 定 程度 上 表达 了 ISON CFG 中 的 符号 构成 的 产 
ERR. 可 以 发 现 这 个 图 的 根 节点 是 json 节点, 并 且 图 中 明显 有 众多 坏 。 如果 让 语 
言 模型 产生 JSON， 就 相当 于 它 在 这 样 一 个 复杂 的 、 迷 宫 一 般 的 图 上 行走 、 选 择 路 
线 和 识别 终点 。 这 可 以 作为 语言 模型 如 果 不 依赖 更 好 的 解码 装置 , 就 难以 生成 更 长 
的 、 合 法 的 JSON 字符 串 的 原因 。 
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json 


boolean 


object array 


—" 
A En aa 
gen [| 


string 


WS | 


characters 


character 


| 


escape integer fraction exponent 


sign 


onenine 


Æ 5-5 JSON CFG 的 一 个 有 环 示意 图 
若 定义 字母 表 习 ， 上 下 文 无 关 文 法 G 和 语言 L(G) ， 将 公式 (5-3) 中 的 P(G) 
称 为 语言 L(G) 上 的 前 绥 语 言 。 


P(G) = {x € X*|Jy € ©* : czy € L(G)} (5-3) 


Mp(s) = {m € d|sm € P(G)} (5-4) 

若 有 一 个 装置 ， 能 够 在 串 se PIG) 的 基础 上 给 出 下 一 个 合法 的 词 元 集合 
Mp(s) ， 然 后 语言 模型 根据 公式 (5-4) 中 的 Mp(s) 上 的 概率 分 布 plany) 采样 ,就 
可 以 生成 新 的 s € P(G), 直到 装置 从 语法 G 中 产生 结束 符 , 模型 就 以 生成 到 s E 
L(G) 而 停止 继续 生成 。 这 就 是 从 语言 模型 生成 开发 者 预期 的 DSL 的 方法 。 
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53 ” 自 回 归 语言 模型 的 约束 解码 器 


自从 来 自 ElementAI 的 Torsten Scholak 等 人 于 2021 年 提出 了 增 量 解析 来 约束 
语言 模型 的 自 回归 解码 (PICARD) 之 后 ， MIT 的 研究 人 员 采 用 基于 Earley 解 
析 的 算法 来 约束 大 模型 生成 四 , 其 基本 思路 是 构造 了 一 个 能 够 根据 语言 模型 产生 的 
字 串 乡下 计算 得 出 语言 LIG) 的 一 个 前 级 Ypres € P(G) 和 下 一 个 合法 的 词 元 集合 
Mp(Yprefix) 的 装置 ， 然 后 再 经 由 语言 模型 得 出 一 个 具体 的 w* © Mp (yyronx)， 将 其 
添加 到 Yoroix 末尾 ， 得 到 新 的 DSL WA, HF) Ge L(G) MA 5-6 所 示 。 


CONSTRAINED-GENERATION (x € Y*,G): 
lyse > 初始 化 空 串 e 
2 while True: 
y + decode(Piru(: |x, G, 9, ---)) 
Y GY > 连接 串 并 更 新 乡 
ifye L(G): > 尝试 验证 串 9 € L(G) 
return ĝ > 返回 预期 的 DSL 
else: 
Yprefix> Mp (Ypretix ) = Generator (9, G) 
Ww" <— arg max Pirm (wlw E Mp (Yprefix) , Yprefix> er] 
GH Yoretix Cr > jfr A € P(G) 


图 5-6 约束 大 模型 生成 DSL 的 算法 四 

现 有 工业 实践 和 学 术 研究 中 , 尚未 采用 协 程 来 实现 图 5-6 中 的 Generator 装置 。 
且 容 易 知道 , 上述 算 法 在 每 一 次 自 回 归 当 中 都 需要 验证 一 次 站 e L(G), 就 算是 验证 
的 时 间 复 杂 度 随 9] WKE n Æ Oln) (这 是 最 好 的 情况 ， 也 是 复杂 度 的 下 限 )， 那 
么 生成 长 度 为 少 的 复杂 度 至 少 为 O(n2) = 5" O(n) 。 

本 研究 采用 的 协 程 因为 可 以 在 解析 或 生成 过 程 中 暂停 以 及 恢复 ， 因 此 自然 地 
保留 了 DSL 解析 的 上 下 文 状态 ， 不 需要 在 每 一 次 验证 或 生成 新 词 元 时 都 从 头 扫描 
一 遍 字 符 串 ， 这 为 降低 约束 解码 的 时 间 复 杂 度 提供 了 技术 支持 。 


5.4 FÅ DSL 生成 器 和 约束 装置 采样 


那么 如 何 具体 设计 一 个 采用 协 程 的 DSL 生成 器 ， 并 将 它 作 为 语言 模型 的 约束 
装置 来 采样 开发 者 预期 的 领域 特定 语言 呢 ? 本 文 提出 了 YieldLang, 一 个 采用 Python 
元 编程 技巧 实现 的 基于 协 程 的 DSL 生成 器 。YieldLang 的 设计 思路 是 将 形式 语法 的 
符号 统一 处 理 为 可 迭代 产生 字符 串 的 装置 , 同时 跟踪 符号 进出 的 调用 栈 , 以 便 生成 
DSL 的 过 程 中 能 够 提供 精确 的 错误 信息 和 恢复 信息 。 此 外 , 当 YieldLang 的 生成 器 
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装载 语言 模型 采样 器 时 ， 它 的 组 合子 函数 能 够 调用 大 模型 来 从 有 限 的 可 能 中 采样 
路 径 并 递归 下 降 的 生成 DSL。 
5.4.1 DSL 生 成 器 的 一 个 具体 实现 


本 文采 用 Python 实现 了 基于 协 程 的 DSL 生成 器 ， 其 关键 点 在 于 文本 生成 器 类 
TextGenerator 中 的 flatten 递归 函数 , 如 图 5-7 所 示 。 它 使 用 元 编程 的 方法 将 形式 
文法 里 的 符号 (包括 终结 符 和 非 终 结 符 ) Symbol 通过 委托 (yield from) 等 方式 统一 
地 转换 为 产生 字符 串 的 可 迭代 装置 。Symbol 可 以 是 可 转换 为 字符 串 的 Strable、Uni- 
code 以 外 的 特定 Token, © EFS None、 空 串 、 代 表 空 的 Token 等 )、 可 和 迭代 产生 
上 述 类 型 的 Iterable 以 及 可 以 产生 上 述 类 型 的 Lambda 函数 。 


def _flatten(self, symbol: Symbol) -> Iterable[str]: 
if callable(symbol): 
symbol = symbol() 
if symbol is None: 
yield EmptyString 
elif isinstance(symbol, (str, int, float, bool)): 
yield str(symbol) 
elif isinstance(symbol, Token): 
yield from self. process token(symbol) 
elif isinstance(symbol, SamplerCallData): 
yield from self. process sampler(symbol) 
elif iterable(symbol): 
yield from self. process iterable(symbol) 
else: 
raise ValueError(f'Invalid symbol: {symbol}') 


图 5-7 YieldLang 将 符号 统一 处 理 为 可 迭代 产生 字符 串 的 装置 
如 果 这 个 装置 仅仅 能 够 生成 合法 DSL, 似乎 还 是 有 点 扫兴 。 和 邓 好 ,本文 设计 了 
track symbol 函数 , 这 是 一 个 用 于 记录 符号 进出 情况 的 装饰 器 , 如 图 5-8 Aras. UIL 
递归 下 降 的 函数 调用 参数 都 记录 到 了 一 个 调用 栈 当中 。 在 生成 器 外 部 , 总 是 能 够 获 
取 调 用 栈 的 栈 顶 就 可 以 获取 符号 名 等 信息 。 当 调用 栈 发 生变 化 时 , 就 可 以 得 知 DSL 
的 生成 情况 ， 当 然 也 可 以 跟踪 整个 调用 栈 ， 并 把 它 恢 复 成 一 颗 语 法 树 。 


def track symbol(fn: T) -> T: 
@functools.wraps(fn) 
def wrapper(*args, **kwargs): 
self = args[@] if args else None 
if isinstance(self, TextGenerator): 
self.sampler.call_stack.append((fn, args, kwargs)) 
yield from fn(*args, **kwargs) 


self.sampler.call_stack.pop() 
else: 
fn name = fn. name _ 
class name = TextGenerator. name — 
raise ValueError(f'(fn name) is not a method of (class name)') 


return wrapper 


图 5-8 YieldLang 跟踪 符号 进出 的 装饰 器 函数 
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此 外 , 此 装置 的 文本 生成 器 类 TextGenerator 中 还 统一 定义 了 Top 函数 接口 , 代 
表 形 式 语言 中 的 开始 字符 Se N ， 它 是 生成 器 产生 DSL 的 唯一 入 口 。 通 过 Python 
的 元 编程 技巧 ， 例 如 装饰 器 (Decorator), HAT (Combinator), PÅ TF (Functor) 等 方 
式 , 可 以 实现 一 套用 于 产生 DSL 的 应 用 程序 开发 框架 。 基于 此 框架 , 开发 者 能 够 在 
Python 的 语法 基础 上 书写 元 语言 ， 此 框架 被 本 文 称 作 YieldLang。 


542 ”YieldLang 的 一 些 DSL 生 成 器 


class PairsGenerator(TextGenerator): 
def top(self): 
yield self.pairs 


def pairs(self): 
yield select( 
(self.pair), 


(self.pair, self.pairs) 


def pair(self): 
yield optional( 
'(", self.pairs, ')' 
) 


图 5-9 YieldLang 下 的 一 个 合法 括号 对 生成 器 
如 图 5-9 所 示 ， 这 是 一 个 生成 合法 括号 对 的 生成 器 。 它 的 top 函数 是 生成 器 的 
入 口 ， 它 调用 了 pairs 函数 ， 而 pairs 函数 又 调用 了 pair 函数 。pair 函数 是 一 个 产 
生 括 号 对 的 函数 , 它 产 生 了 两 种 可 能 的 括号 对 : 空 串 和 括号 对 。 这 个 生成 器 可 以 生 
成 任意 数量 的 合法 括号 对 ， 例 如 O, (0), (0I0, (00)0,... 等 等 。 其 中 select 组 
合子 函数 用 于 选择 一 个 采样 路 径 ，optional 函数 等 价 于 如 图 5-10 所 示 的 代码 。 


def optional(self, *args: Symbol): 
yield select( 


3 
args 


图 5-10 YieldLang 中 optional 组 合子 的 定义 
另 一 个 较为 复杂 的 例子 是 生成 简单 的 Mermaid 流程 图 ， 其 生成 器 代码 如 
5-11 所 示 。 其 中 的 Python 表达 式 (yield self.graph_name) 会 得 到 一 个 符号 产生 的 字 
符 串 ,然后 根据 这 个 字符 串 的 内 容 , 选择 产生 Flowchart (作为 一 个 简单 的 例子 ,这 里 
不 产生 其 他 类 型 的 Mermaid 图 )。 值 得 一 提 的 是 (yield A) 等 价 于 yield (yield A). 
join 方法 用 于 在 最 外 层 符号 序列 中 的 每 相 邻 两 个 符号 之 间 插 入 一 个 特定 的 符号 。 
repeat 方法 用 于 重复 产生 一 个 符号 指定 次 数 。 
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class MermaidGenerator(TextGenerator): 
def top(self): 
yield self.mermaid 


def mermaid(self): 
match (yield self.graph_name): 
case ‘flowchart’: 
yield self.flowchart 


graph_name(self): 
yield select('flowchart') 


flowchart(self): 
yield (' ', self.flowchart type, '\n') 
yield join('\n', self.flowchart rules) 


flowchart type(self): 
yield select('TD', 'LR') 


flowchart rules(self): 

rand times = randint(19, 29) 

single line = (* ' * 4, self.flowchart rule) 
yield from repeat(single line, rand times) 


flowchart rule(self): 
yield self.node 
yield ' --> ' 

yield self.node 


node(self): 
yield select(*range(1, 19)) 


图 5-11 YieldLang 下 的 一 个 简单 流程 图 生成 器 
如 果 采 用 随机 的 class Randomsampler(Sampler) 采样 器 ( 它 在 每 一 个 交叉 路 口 随 
机 选择 一 条 路 径 递归 下 降 的 采样 )， 那 么 图 5-11 的 基于 YieldLang 的 生成 器 可 以 产 
生 形 如 图 5-12 中 所 示 的 随机 节点 和 随机 有 向 边 的 流程 图 。 


图 5-12 Mermaid Generator 随机 生成 的 四 个 流程 图 
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def print sample rules(): 
rules: set[str] = set() 
for _ in range(sample times): 
sampler = RandomSampler() 
for _ in JSONGenerator(sampler): 


last_symbol = None 


for symbol name in sampler.symbol names(): 
if last symbol and symbol name: 
rule = f'flast symbol) --> (symbol name)" 
if rule not in rules: 
rules.add(rule) 
print(rule) 
last symbol = symbol name 


图 5-13 ”从 已 有 的 生成 器 中 随机 采样 产生 规则 
通过 随机 采样 和 track symbol 函数， 还 可 以 通过 图 5-13 Ar ws BY 
print_sample_rules 方法 随机 采样 此 生成 器 下 的 CFG 中 的 产生 规则 。 这 个 方法 可 以 
用 于 生成 DSL 的 语法 树 或 产生 规则 图 (采用 Mermaid 来 解析 和 演 染 这 种 图 )。 图 5-5 
就 是 采用 这 个 方法 生成 的 JSON 语法 的 产生 规则 图 。 

JSON 作为 工业 界 非 常常 用 的 一 种 DSL， 本 文 提出 的 YieldLang 显然 也 能 够 用 
定义 它 的 语法 和 构造 对 应 的 生成 器 装置 。 图 5-14 就 给 出 了 完整 的 JSON 语法 的 
生成 器 代码 ， 它 的 CFG 是 按照 JSON 官方 的 McKeeman Form 所 书写 的 。 

JSONGenerator 中 的 accept 函数 用 于 定义 这 个 符号 所 能 接受 的 字符 集 (或 者 说 
是 能 够 产生 的 终结 符 集合 accept(...) CD), FH invalids 参数 用 于 定义 这 个 符号 
所 不 能 接受 的 字符 集合 ，range 参数 用 于 定义 这 个 符号 所 能 接受 的 字符 范围 。 有 了 
JSONGenerator 后 ， 通 过 随机 采样 就 能 够 生成 任意 长 度 的 随机 ISON 字符 串 。 
表 5-1 随机 采样 生成 的 ISON 字符 串 样 例 


JSON 样 例 对 象 类 型 字符 串 长 度 


null none (null) 4 
"Te string (string) 5 
false boolean (boolean) 5 
-39.61 float (number) 6 
-96008 integer (number) 6 
"Wi" string (string) 8 
"/E5?\"" string (string) 9 
[[[true]]] array (array) 10 
{" 型": []) dictionary (object) 13 


表 5-1 列举 了 随机 采样 生成 的 JSON 字符 串 的 不 同样 例 , 它们 的 类 型 和 长 度 各 
不 相同 。 需要 注意 的 是 ， 随 机 JSON 字符 串 样 例 是 没有 任何 语义 的 ， 这 里 仅 表示 其 
语法 结构 ， 其 中 的 “乱码 ”是 由 于 随机 从 Unicode 字符 集中 挑选 字符 而 生成 的 。 
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class JSONGenerator(TextGenerator): 
def top(self): 
yield self.json 
def json(self): 
yield self.element 
def object(self): 
yield select( 
('{', self.ws, ')'), 
('{', self.members, '}') 
members(self): 
yield select( 
(self.member), 
(self.member, ',', self.members) 


member(self): 
yield (self.ws, self.string, self.ws, 
array(self): 
yield select( 
(‘[', self.ws, ']'), 
('[', self.elements, ‘]') 


:', self.element) 


elements(self): 
yield select( 
(self.element), 
(self.element, ',', self.elements) 


string(self): 

yield ('"', self.characters, '"') 

characters(self): 

yield optional(self.character, self.characters) 

character(self): 

yield select( 
accept(range=("(uee20", '\uffff'), invalids=(""", '\\')), 
("NN ', self.escape) 


escape(self): 
yield select( 
*'\\"/bfnrt', 
('u', repeat(self.hex, 4)) 


) 

hex(self): 

yield select( 
self.digit, 
select(*'ABCDEF'), 
select(*'abcdef') 


) 
digit(self): 
yield select('@', self.onenine) 
onenine(self): 
yield select(*'123456789' ) 
number(self): 
yield (self.integer, self.fraction, self.exponent) 
integer(self): 
yield select( 
(self.digit), 
(self.onenine, self.digits), 
('-', self.digit), 
('-', self.onenine, self.digits) 


) 

digits(self): 

yield select( 
(self.digit), 
(self.digit, self.digits) 


) 
fraction(self): 
yield optional('.', self.digits) 
exponent (self): 
yield optional(select( 
('E', self.sign, self.digits), 
('e', self.sign, self.digits) 


)) 
sign(self): 
yield optional(select('+', '-')) 
boolean(self): 
yield select('true', 'false') 
null(self): 
yield "null" 
value(self): 
yield select( 
self.object, 
self.array, 
self.string, 
self.number, 
self.boolean, 
self.null 


) 
element(self): 
yield (self.ws, self.value, self.ws) 
ws(self): 
yield optional(select( 
， self.ws), 

self.ws), 

self.ws), 

self.ws) 


图 5-14 YieldLang 下 的 一 个 JSON 字符 串 生 成 器 
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5.43 ”如 何 让 语言 模型 选择 采样 路 径 


仅仅 有 随机 采样 器 肯定 是 不 够 的 ， 为 了 利用 语言 模型 的 能 力 生 成 真正 有 语义 
的 DSL, 需要 让 语言 模型 选择 采样 路 径 。 然而 , 语言 模型 的 神经 网 络 输出 层 能 够 代 
表 下 一 个 词 在 词汇 表 I 上 的 概率 分 布 p(z。1) ， 但 是 却 不 能 直接 给 出 非 终结 符 的 
概率 分 布 。 这 导致 我 们 并 不 能 直接 的 让 语言 模型 在 规则 中 采样 路 径 , 而 是 首先 需要 
找到 “分 岔路 口 ? 中 每 一 个 路 口 对 应 的 非 终结 符 A E N 的 First 集合 (如果 某 个 路 径 
直接 到 达 终 结 符 ， 那 么 就 可 以 直接 选取 它 )。 

在 形式 语言 和 编译 原理 中 ，First 集合 和 是 用 于 预测 上 下 文 无 关 文法 (CFG) 中 
某 个 非 终 结 符 的 下 一 个 输入 符号 的 重要 概念 。First 集合 包含 一 个 非 终结 符 可 能 产 
生 的 第 一 个 符号 的 集合 ， 它 用 于 预测 某 个 非 终结 符 是 否 可 以 推导 出 某 个 符号 。 

对 于 一 个 非 终结 符 4， 其 First 集合 First(A) 由 以 下 三 条 规则 定义 : 

(1) 如 果 A 可 以 直接 推导 出 空 串 = Ne € First(4)。 

(2) 如 果 A 可 以 推导 出 以 某 个 终结 符 a € I FMH, MU a € First(4)。 

(3) 如 果 A 可 以 推导 出 以 非 终 结 符 B 开始 的 字符 串 ， 则 First(B) C First(A). 

显然 根据 First 集合 的 三 条 规则 可 以 设计 一 个 迭代 产生 式 的 算法 来 计算 得 出 
First 集合 。 这 个 算法 的 基本 思路 是 首先 初始 化 First(4) = 0, Wa WERE 
First(4) 不 再 增 大 。 在 每 一 次 迭代 中 ， 对 于 已 中 每 一 个 产生 式 AS a WR a 是 
终结 符 或 者 空 串 ， 那 么 就 把 a 加 入 到 First(A) P. WR a 是 非 终结 符 ， 那 么 就 把 
First(a) 中 的 所 有 元 素 加 入 到 First(A) 中 。 这 个 算法 的 时 间 复 杂 度 是 O(|N|* |P|)， 
其 中 IN| 是 非 终结 符 的 数量 ，| 己 | 是 产生 式 的 数量 。 对 于 四 元 组 G = (N, X, P, 8S) 
所 定义 的 上 下 文 无 关 文 法 ， 可 以 由 图 5-15 所 示 的 基础 算法 求 得 。 


FIRST (A € N): 
I s+ÅD 
2 for (A > a) in P: 
if (a > e): 
s+} sU {e} 


else if (a =a € >): 
s + sU {a} 
elseif (a= BEN): 
s + s U First( B) 
9 return s 


图 5-15 一 个 求 First 集合 的 算法 
但 图 5-15 所 示 算 法 的 问题 在 于 ， 不 能 处 理 存 在 左 递归 的 情况 。 左 递归 是 指 一 
个 非 终结 符 在 产生 式 的 右 部 以 自身 开头 , 例如 {4 — 4a,4 一 好 。 在 这 种 情况 下 求 
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解 4 的 First 集合 时 会 陷入 无 限 循环 。 因 为 4 的 First 集合 可 能 包含 4 ， 所 以 求解 
A 的 First 集合 时 需要 再 次 求解 4 的 First 集合 ， 如 此 形成 死 循环 。 此 外 ， 如 果 多 
个 符号 之 间 形 成 了 间接 的 左 递归 ， 同 样 也 会 遇 到 死 循环 的 情况 。 

为 了 消除 左 递归 的 问题 ,有 两 种 方法 , 一 是 开发 人 员 在 书写 DSL 的 文法 的 时 候 
就 避免 左 递归 ， 二 是 更 进一步 在 生成 器 构造 的 时 候 根据 文法 规则 自动 消除 左 递归 。 
当然 , 对 于 具有 通用 能 力 的 大 语言 模型 , 求解 不 出 First 集合 也 没关系 , 通过 添加 指 
令 让 语言 模型 直接 选择 非 终 结 符 (因为 非 终 结 符 本 身 也 可 以 转换 为 字符 串 , 甚至 开 
发 者 可 以 描述 这 个 非 终 结 符 , 从 而 能 够 构造 出 一 个 或 多 个 属于 大 语言 模型 字母 表 > 
的 字符 串 来 让 大 模型 采样 )。 这 样 语言 模型 就 能 够 从 DSL 语法 中 采样 路 径 了 。 
图 1-3 所 示 的 引导 大 语言 模型 生成 可 解析 内 容 的 系统 也 是 利用 语言 模型 作为 
DSL 生成 器 的 采样 器 的 流程 图 。 其 流程 为 : i 输入 提示 词 , 语言 模型 从 上 文 为 空 
始 生 成 。 ii. FEZ DSL 解析 和 语言 生成 装置 产生 引导 指令 , 其 被 语言 模型 引导 装置 转 
化 为 下 一 个 合法 的 词 元 集合 。 这 .语言 模型 引导 装置 作用 于 NN (神经 网 络 ) 的 输出 
层 , 神经 网 络 输出 层 的 Tensor 通过 后 处 理 器 得 到 新 的 Tensor , 然后 通过 softmax FÅ 
数 转 换 为 语言 模型 词汇 表 的 概率 表示 ， 最 后 经 过 采样 器 得 到 具体 某 一 个 tokens iv 
语言 模型 引导 装置 采用 语言 模型 的 词汇 表 对 应 的 Tokenizer 将 下 一 个 合法 的 词 元 集 
合 。v. 词汇 偏 置 ， 语言 模型 引导 装置 通过 为 Logits 和 New Logits 之 间 装 入 一 个 新 
的 约束 器 Processor ,用 以 提高 概率 分 布 Tensor 中 合法 ID 位 置 值 的 大 小 ,降低 不 合 
法 ID 位 置 值 的 大 小 。vi. 经 过 模型 的 解码 器 ， 模 型 输出 正确 的 新 token， 形 成 新 的 
DSL EÈ DSL 的 前 级 。 vii. 通过 send 方法 输入 token 到 异步 装置 ， 得 到 新 的 引导 指 
令 。 viii. 回 到 步骤 阁 ， 根 据 当 前 任务 的 上 下 文 继续 生成 ， 直 到 异步 装置 产生 结束 
指令 ， 开 发 者 预期 的 DSL 生成 完毕 ， 此 DSL 是 一 定 能 够 被 解析 的 。 


55 ”本 章 小 结 


本 章 先 介绍 了 语言 模型 常 基于 的 自 回 归 模 型 , 然后 以 JSON 语法 为 例子 阐述 了 
JSON 字符 串 的 产生 思路 , 并 指出 当前 常见 解析 器 的 不 足 。 接 着 , 本 章 给 出 了 前 绥 语 
å P(G) 和 装置 Mp(s) 的 数学 定义 。 之 后 本 章 介绍 了 自 回 归 语言 模型 的 约束 解码 
策略 ， 然 后 本 文 用 Python 语言 具体 设计 了 一 个 DSL 生成 框架 ， 并 取 名 YieldLang， 
还 举 了 几 个 用 YieldLang 作为 元 语言 书写 DSL 的 CFG 的 例子 。 最 后 ， 本 章 介 绍 了 
让 语言 模型 在 生成 器 中 选择 采样 路 径 的 方法 和 First 集合， 最 终 给 出 了 一 个 引导 大 
语言 模型 生成 可 解析 内 容 的 系统 的 具体 流程 描述 。 
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6 本 研究 在 语言 模型 生成 DSL 领域 取得 优势 


本 文 作者 在 三 个 测试 集中 测试 了 GPT-2 和 Gemma 两 个 模型 在 温度 设置 为 0.7 
情况 下 的 DSL 下游 任务 的 能 力 。 ISON Text 任务 考虑 模型 在 完整 ISON 文法 下 生成 
特定 的 JSON 子 集 下 数据 结构 的 准确 率 .Mermaid 任务 考虑 模型 在 Flowchart 的 一 个 
子 集 DSL 下 生成 能 被 Mermaid.js' 成 功 泻 染 为 SVG 格式 的 矢量 图 的 成 功率 。Func- 
tion Call 任务 考虑 模型 生成 Python 函数 调用 表达 式 并 成 功 调用 的 成 功率 。 

在 不 使 用 DSL 的 约束 装置 (基准 ) 和 使 用 本 文 实现 的 Yield Lang 和 大 语言 模 
型 采样 装置 本文) 两 种 情况 下 ， 后 者 的 性 能 显著 高 于 前 者 ， 就 如 表 6-1 所 示 。 

表 6-1 本 研究 在 多 种 DSL 生成 任务 上 的 分 数 


模型 名 称 oe Text eee est Call 
基准 Au 基准 ”本文 基准 Au 

GPT-2 6.7% 12.1% 7.2% 83.6% 16.7% 18.9% 
GPT-2 XL 13.5% 19.6% 11.3% 87.4% 19.0% 20.7% 
Gemma-2B 20.4% 42.1% 23.2% 91.1% 23.7% 26.4% 
Gemma-7B 29.3% 49.9% 34.4% 97.7% 28.2% 31.9% 


其 次 , 由 于 在 生成 器 产生 DSL 时 , 某 些 路 径 总 是 能 被 程序 确定 的 , 无 需 大 语言 
模型 进行 采样 , 这 节约 了 大 语言 模型 产生 DSL 所 需要 的 采样 次 数 。 经 过 实验 , 产生 
不 含有 语义 的 JSON 字符 串 , RERED F C Sirm C Unicode) KORKKA 
次 数 减少 到 原来 的 约 16.5% ， 随 字符 串 长 度 的 变化 如 图 6-1 所 示 。 
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图 6-1 调用 LLMs 的 采样 次 数 与 生成 JSON 长 度 的 比率 


"https://mermaid.js.org/ 
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若 仅 考虑 DSL 能 够 被 Parser 解析 成 功 ， 本 研究 进行 了 约 2.7 亿 次 JSON 生成 和 
用 Python 的 JSON 包 解 析 的 测试 ， 生 成 了 平均 长 度 17.86、 最 大 长 度 2136 的 JSON 
字符 串 ， 其 中 100% 的 JSON 字符 串 都 能 够 被 成 功 解析 并 还 原 。 


6.1 本 研究 实现 大 语言 模型 ISON 模式 


引导 JSON 生成 工具 
step 01. 输入 提示 词 


生成 一 份 菜谱 


step 02. JSON 模式 


step 03. 点 生成 按钮 
4 生成 
step 04. 生成 JSON 


生成 的 JSON ÆR 
{ 


ipe": { 
"name": "香草 奶油 烤 土 豆 "， 
"ingredients": [Å 


"item": "中 等 大 小 的 土豆 "， 
"quantity": "4 个 " 


viten": "A", 
"quantity": "2 汤匙 " 


"item": " 盐 和 胡椒 粉 ”， 
站 


图 6-2 JSON 模式 大 语言 模型 实现 的 交互 界面 

JSON 作为 典型 的 DSL 能 够 表达 常用 的 数据 结构 ， 本 研究 基于 YieldLang 和 
JSON 的 语法 规则 实现 了 大 语言 模型 的 JSON 模式 ， 如 图 6-2 所 示 。 

6-2 中 的 人 机 交互 界面 从 上 到 下 分 别 是 标题 、 提 示 词 输入 框 按钮 、 提 示 词 输 
入 框 、JSON 模式 启用 开关 、 生 成 按钮 和 生成 结果 预览 。 第 一 个 提示 词 输入 框 按钮 
是 编辑 提示 词 Markdown 源码 的 按钮 、 第 二 个 是 查看 输入 框 使 用 帮助 的 按钮 。 提 示 
词 输入 框 用 于 输入 提供 给 语言 模型 的 提示 词 。 关 闭 ISON 模式 , 模型 将 不 采用 本 研 
完 的 装置 。 打开 ISON 模式 ， 将 会 启用 本 研究 的 装置 ， 并 配置 JSON 的 CFG. 点击 
生成 按钮 , 语言 模型 将 采用 提示 词 逐 个 生成 Token 并 添加 到 生成 结果 预览 编辑 器 的 
光标 末尾 ， 直 到 模型 输出 到 结束 Token ， 大 语言 模型 生成 JSON 完毕 。 

在 工业 实践 中 , 基于 本 研究 的 装置 可 以 纳入 基于 Transformer 的 推理 框架 中 , 提 
供 一 个 与 OpenAI 类 似 的 APL, 例如 ("response format": {"type": "json object")) Å 
示 语 言 模型 应 该 以 json_object 格式 返回 响应 。 更 进一步 , 采用 提示 词 工程 等 技术 ， 
还 可 以 在 “适当 ”的 时 候 或 “位 置 " 启 用 DSL 约束 装置 ， 以 实现 具体 的 功能 。 
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7 ”总结 与 展望 


本 文 研究 了 大 语言 模型 生成 领域 特定 语言 的 挑战 和 方法 。 首 先 介绍 了 DSL 的 
广泛 应 用 和 研究 现状 , 并 指出 语言 模型 生成 DSL 的 潜力 和 局 限 性 。 本文 分 析 了 DSL 
的 典型 句法 特征 , 并 提出 了 一 种 验证 语言 模型 生成 DSL 性 能 的 实验 方法 。 实验 结 果 
表明 , 现 有 的 语言 模型 在 生成 DSL 任务 上 的 性 能 难以 接受 。 为 了 解决 上 述 问 题 , 本 
文 提出 了 一 种 基于 约束 解码 的 DSL 生成 装置 , 该 装置 包括 异步 DSL 解析 语言 生成 
装置 和 语言 模型 引导 装置 。 本文 还 介绍 了 自 回 归 语 言 模型 的 约束 解码 策略 , 并 基于 
Python 的 元 编程 能 力 设计 了 YieldLang 框架 ， 一 个 易 用 的 DSL 生成 框架 。 

本 研究 设计 的 方案 在 多 个 DSL 生成 任务 上 取得 了 优势 ， 能 够 提高 大 语言 模型 
Æ È DSL 的 性 能 。 令 人 喜出望外 的 是 , 本 研究 的 装置 还 有 望 节约 大 语言 模型 的 采样 
次 数 , 这 可 以 减少 语言 模型 生成 DSL 所 需要 的 计算 量 和 时 间 。 本 研究 还 实现 了 一 个 
大 语言 模型 的 JSON 模式 ， 提 供 了 一 个 人 机 交互 界面 和 网 络 API， 用 户 可 以 通过 给 
大 语言 模型 输入 提示 词 来 生成 特定 的 JSON 字符 串 。 最 近 新 出 现 的 MoonBit 语言 已 
经 开始 尝试 采用 DSL 采样 器 来 “ 适 配 ” 大 语言 模型 !， 本 研究 提出 的 基于 协 程 的 方法 
有 望 改 进 现 有 语言 模型 的 DSL 生成 装置 和 降低 开发 难度 。 

实际 上 ， 本 研究 可 以 被 粗略 地 认为 是 一 种 利用 “自动 补 全 ”的 方法 来 帮助 或 限 
制 语 言 模型 生成 DSL。 约束 解码 可 以 形象 地 理解 为 “ 拘 着 语言 模型 的 脖子 说 话 ”。 此 
Sb, DSL 作为 一 种 统一 的 、 通用 的 和 已 经 被 大 规模 应 用 的 形式 , 有 望 帮助 人 工 智 能 
掌握 工具 的 使 用 方法 并 成 为 AGI。 下 面 列 举 了 两 个 可 能 的 应 用 场景 : 

(1) 自动 补 全 器 : 使 用 语言 模型 帮助 开发 人 员 用 更 少 的 步 又 输入 代码 实现 需求 。 
如 果 语 言 模型 能 够 根据 上 下 文 环 境 构建 更 具体 的 DSL 语法 规则 ， 再 经 过 约束 解码 
来 帮助 开发 人 员 书 写 代 码 ， 那 么 可 能 将 大 大 提高 开发 者 的 采纳 率 。 

(2) 智能 操作 员 : 根据 CFG 产生 100% 正确 的 函数 调用 表达 式 或 其 他 DSL, 使 
得 模型 可 以 根据 上 下 文 环境 ， 以 更 高 的 成 功率 调用 函数 完成 某 些 特定 的 任务 。 

最 后 ， 本 研究 还 有 众多 不 足 , 例如 LLMs 在 受到 更 复杂 约束 的 情况 下 , 它 的 各 
种 性 能 与 条 件 概率 是 怎样 的 ? 如 何 将 提示 词 工程 技术 、In-Context Learning 的 方法 
与 DSL 约束 相 结合 , 使 得 模型 能 够 在 更 多 场景 下 拥有 好 的 性 能 ?相关 方法 是 否 有 益 
于 LLMs 的 预 训练 或 微调 ? 这 些 问题 将 在 未 来 的 研究 中 进一步 探讨 。 


"https://www.moonbitlang.com/blog/moonbit-ai 
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